《交管大数据中心业务模型建设规范(征求意见稿)》.docx

上传人:夺命阿水 文档编号:489991 上传时间:2023-07-26 格式:DOCX 页数:29 大小:83.10KB
返回 下载 相关 举报
《交管大数据中心业务模型建设规范(征求意见稿)》.docx_第1页
第1页 / 共29页
《交管大数据中心业务模型建设规范(征求意见稿)》.docx_第2页
第2页 / 共29页
《交管大数据中心业务模型建设规范(征求意见稿)》.docx_第3页
第3页 / 共29页
《交管大数据中心业务模型建设规范(征求意见稿)》.docx_第4页
第4页 / 共29页
《交管大数据中心业务模型建设规范(征求意见稿)》.docx_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《《交管大数据中心业务模型建设规范(征求意见稿)》.docx》由会员分享,可在线阅读,更多相关《《交管大数据中心业务模型建设规范(征求意见稿)》.docx(29页珍藏版)》请在课桌文档上搜索。

1、ISC35.240.60CCSR99DB34安徽省地方标准DB34/TXX-XXXX交通管理大数据中心数据模型建设规范SpecificationforTrafficManagementBigDataCenterBusinessModeling(征求意见稿)XXXX-XX-XX 发布XXXX-XX-XX实施安徽省市场监督管理局发布前言本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件由安徽省公安厅提出并归口。本文件起草单位:安徽百诚慧通科技股份有限公司等。本文件主要起

2、草人:张宏燕等。交通管理大数据中心数据模型建设规范1范围本文件规定了交通管理大数据中心数据模型建设过程中的数据处理、特征选择、数据建模、模型评估、模型发布规范。本文件适用于交管业务大数据建模的分析、设计、开发、测试、调优和发布。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。本文件没有规范性引用文件。3术语和定义3.1数据建模DataModeling数据建模是一个数据分析与挖掘的过程,从数据之中发现问题,解释问题,建立相应的数据模型。3.2模型

3、评估ModelEvaluation获取模型对于数据的拟合程度,对模型的泛化能力(性能)进行评估。4建设流程交通管理大数据中心数据模型建设流程见图Io图1数据建模流程示意图交通管理大数据中心数据模型模型设计内容包括数据处理、特征选择、数据建模、模型评估和模型发布。5数据处理5.1 数据提取5.1.1 提取数据源5. 从交管大数据综合应用平台、集成指挥平台以及第三方外挂平台提取数据。6. 1.2提取范围交管大数据中心业务数据提取范围包括但不限于驾驶人、机动车、违法、事故、过车、道路、卡口设备、气象数据、其他数据等;一驾驶人数据:包括驾驶人身份证明号码、性别、准驾车型等,详见附录A驾驶人信息表机动车

4、数据:包括号牌号码、号牌种类、核定载客、车辆类型等,详见附录B机动车信息表一违法数据:包括号牌号码、号牌种类、违法行为、违法时间等,详见附录C违法信息表一事故数据:包括号牌号码、号牌种类、事故类型、事故发生时间、事故地点等,详见附录D事故信息表、附录E事故人员信息表一过车数据:包括号牌号码、号牌种类、过车时间、设备编号、车道号、车辆类型等,详见附录F过车信息表一道路数据:包括行政区划、管理部门、道路类型、道路代码等,详见附件G道路信息表一卡口设备数据:包括设备编号、设备类型、车道号、方向类型、点位编号等,详见附录H卡口设备信息表一气象数据:包括设备编号、行政区划、能见度、湿滑系数、风速等,详见

5、附录I气象数据信息表一其他数据:包括吸毒人员、在押人员等,详见附录J其他数据信息表6.1 .3提取方式数据提取方式包括:使用公安交管业务分布式汇聚管理平台采用相机SDK接入、GAT1400公安视图库标准协议接入、ftp协议接入以及消息队列中间件数据接入等多种方式,来收集数据。一使用公安交管数智能力开放平台数据接入模块进行配置输入数据库连接、输出数据库地址进行数据采集。6.2 清洗治理5. 2.1数据质量评估基于数据标准和质量规则评估驾驶人、机动车、违法、事故、过车、道路、卡口设备、气象数据、其他数据的整体质量,分析数据的缺失值、冗余值、错误值、不一致性等问题,以确定数据清洗目标。6. 2.2非

6、空数据核验数据质量评估分析出来的缺失数据,在字段为非空的情况下,对该字段进行核验。如驾驶人数据中的身份证明号码、性别、初次领证日期;机动车数据中的号牌号码、号牌种类、车辆类型、使用性质、初次登记日期、身份证明号码、机动车状态、核定载客、检验报废期止、强制报废期止;违法数据中号牌号码、号牌种类、违法时间、违法行为、违法记分数;事故数据中的事故编号、事故发生时间、死亡人数、受伤人数、号牌号码、号牌种类、是否逃逸;过车数据中的号牌号码、号牌种类、经过时间;道路数据中的道路代码、道路类型、道路名称、行政区划、管理部门;卡口设备数据中的设备编号、设备类型、使用状态、车道号、方向类型、点位编号;气象数据中

7、设备编号、检测时段、检测时间;其他数据中的身份证明号码。7. 2.3重复数据去重对数据质量评估分析出来的冗余数据,重复记录去重,保留最新记录。如驾驶人数据身份证明号码;机动车数据中号牌号码、号牌种类;违法数据中违法编号;事故数据中的事故编号;道路数据中的道路代码;卡口设备数据中的设备编号;气象数据中设备编号;其他数据中的身份证明号码。8. 2.4错误数据删除对数据质量评估分析出来的错误值,进行删除。如驾驶人数据中准驾车型代码不存在、身份证明号码长度大于18;机动车数据中初次登记日期内容是100年前;违法数据中单次违法记分数值为5分的;事故数据事故发生时间大于当前时间;过车数据经过时间大于当前时

8、间、号牌号码识别长度大于8;道路数据中道路类型不存在;卡口设备数据中设备编号不符合设计标准;气象数据中设备编号下的记录值都为空。5. 2.5规范数据类型数据质量评估分析出来的不一致值,对其数据类型规范化。数据类型不一致,如日期类型的数据实际却是字符或数字类型,应转成日期类型;驾驶人数据中下一清分日期、下一审验日期、初次领证日期、有效期始、有效期止、发证日期、出生日期;机动车数据中初次登记日期、最近定检日期、检验报废期止、强制报废期止、发行驶证日期、发登记证书日期、发合格证日期、保险终止日期;违法数据中违法时间、处理时间、缴款日期、录入时间;事故数据中开始侦查时间、结束侦查时间、事故发生时间、录

9、入时间、更新时间;过车数据中经过时间、录入时间;气象数据中检测时间。6. 特征选择6.1 构造衍生特征为了丰富特征维度,使用将单个或多个特征进行计算、组合数据方式构造衍生特征。如驾驶人数据中驾驶人驾龄是当前日期与初次领证日期相减计算得到、驾驶人年龄通过当前日期与出生日期减去计算;是否车型降级通过准驾车型和原准驾车型比较得到;车辆数据中车辆是否强制报废通过当前日期与强制报废期止相减计算得到、是否逾期未年检通过当前日期与检验有效期止相减计算、是否逾期未保险通过当前日期与保险终止日期相减计算;违法数据中车辆违法次数通过对号牌号码和号牌种类分组计数得到、车辆总违法记分数通过对号牌号码和号牌种类分组求和

10、得到、车辆有多少次严重违法通过对违法类型进行筛选然后对号牌号码和和号牌种类分组计数得到;事故数据中车辆发生财产损失事故次数通过对号牌号码和号牌种类分组计数得到、车辆发生伤人事故次数通过对号牌号码和号牌种类分组计数得到、车辆发生亡人事故通过对号牌号码和号牌种类分组计数得到;过车数据中车辆过车天数通过号牌号码和号牌种类分组对日期进行计数得到、车辆经常经过点位对号牌号码和号牌种类与点位分组计数,然后再对号牌号码和号牌种类进行排序取计数最多的那个点位;卡口设备数据中卡口在道路的位置通过公里数和米数相加得到;6.2 特征转换对原始特征和衍生特征数据进行特征转换。转换方法如下:二值化:将两个类别型的特征,

11、转换成1、Oo如驾驶人数据中性别特征,转换成男性:1,女性:0;国籍转化为中国人:1,外国人:0;车辆数据中是否强制报废,是:1,否:0;是否逾期未年检,是:1,否:0;是否逾期未保险,是:1,否:0;事故数据中事故类型转成伤亡事故:I,财产损失事故:Oo哑变量:将不能够定量处理的特征量化,对多类别型特征处理。如车辆数据中车辆类型转换,大车:OOO1,小车:0010,摩托车:0100,其他车:1000;车辆数据中车辆使用性质,客运:0001,货运:0010,危化品:0100,其他:1000;违法数据中行为特征转换,违法停车:000001,超速:000010,违法交通信号灯:000100,非法营

12、运:001000,超员:010000,超载:100000等。标准化数据:对于不同特征取值范围相差较大的,将特征值通过公式(X-均值)/方差映射到到0,1范围内。如车辆数据中车龄进行计算得到标准化后数据;违法数据中总违法记分数进行标准化;分箱处理:对于连续型特征,转换为类别型的特征。如对驾驶人年龄做分箱处理,处理后18-23、24-3031-3536-4041-5051-6060以上共7个类别;过车数据中近三十天车辆过车天数处理后小于3天、4-89-13J14-16.17-21、21天以上共6个类别。6.3 特征筛选对预测预警类和异常检测类模型中用到的原始特征、衍生特征数据和特征转换后的数据进行

13、特征筛选。特征重要性排序:使用随机森林算法或决策树算法中的特征重要性计算模块来计算特征重要性,并按照重要性做降序排序,得到特征的重要性集合N;特征筛选:剔除特征重要性排序最低的10%的特征,得到新的特征集合;用新的特征集合,重复上述过程,直到剩下0.75*N个特征。7数据建模7.1 统计分析类模型7.1.1 适用场景7. 此类模型主要用于编写日常统计分析报表、专项研究报告等工作,如机动车统计、驾驶人统计、交通违法统计、交通事故统计、交通违法查处态势分析、道路交通安全态势分析等8. 1.2使用数据机动车统计:号牌号码、号牌种类、车辆类型、核定载客驾驶人统计:性别、出生日期、初次领证日期、补证次数

14、、驾驶证状态交通违法统计:行政区划、管理部门、违法时间、违法地点、违法行为、信息来源、违法记分数交通事故统计:事故发生时间、行政区划、管理部门、事故地点、当场死亡人数、抢救无效死亡人数、24小时死亡人数、3日内死亡人数、7日内死亡人数、机动车数量、非机动车数量、行人数据量、事故类型、事故认定原因分类、碰撞方式8.1 3建模步骤8.2 3.1数据分组统计统计机动车类型占比,按机动车类型做分组,具体分为重型货车、中型货车、小微型货车、普通小轿车,每月统计不同类型的机动车辆数量、占比及增长率驾驶人统计:每月统计驾驶人数量、补换证数量、驾驶证失效数量及增长率交通违法统计:按行政区划、管理部门分组,每月

15、统计不同违法行为的数量及增长率、不同违法行为占比交通事故统计:按行政区划、管理部门分组,每月统计不同事故类型的数量,死亡人数、涉及的机动车数量、行人数量、非机动车数量,及每月重大事故增长率8.3 3.2统计结果输出输出机动车类型占比、驾驶人统计、交通违法统计、交通事故统计结果8.4 业务规则类模型7.2.1适用场景此类模型主要用于检测交管业务中不合规则的场景,如假牌车、套牌车、车辆逾期未检验、报废车辆上路行驶等7.2.2使用数据假牌车识别模型:机动车信息表中的号牌号码、号牌种类、车辆类型;过车数据中的号牌号码、号牌种类、车辆类型、过车时间、设备编号套牌车识别模型:机动车信息表中的号牌号码、号牌

16、种类、车辆类型;过车数据中的号牌号码、号牌种类、车辆类型、过车时间、设备编号、车道编号;卡口设备信息表中的设备编号、车道编号、点位编号、经度、纬度车辆逾期未检验识别模型:机动车信息表中的号牌号码、号牌种类、车辆类型、检验有效期止;过车数据中的号牌号码、号牌种类、过车时间、设备编号报废车辆上路行驶识别模型:机动车信息表中的号牌号码、号牌种类、车辆类型、强制报废期止;过车数据中的号牌号码、号牌种类、过车时间、设备编号7.2.3建模步骤7.2.3.1设置业务规则假牌车识别业务规则:最新过车数据中的车辆在车辆信息表中匹配不到数据,则认为此车辆的号牌为假牌套牌车识别业务规则:最新过车数据中的车辆同时出现

17、在不同的点位编号同时出现,且两个点位之间距离大于500米,认为此车辆为套牌车车辆逾期未检验识别业务规则:最新过车数据中的车辆检验有效期,超出了车辆信息表中检验有效期截止日期,则认为此车辆为逾期未检验报废车辆上路行驶识别业务规则:最新过车数据中的车辆报废日期,超出了车辆信息表中强制报废期截止日期,则认为此车辆为报废车辆上路行驶7.2.3.2基于规则计算假牌车识别模型:使用最新过车数据中的号牌号码、号牌种类、车辆类型,关联车辆信息表中的号牌号码、号牌种类、车辆类型,如果过车表中的机动车在车辆信息表中关联不到数据,给这辆车打上假牌车标签,标签值为1,否则标签值为O套牌车识别模型:使用最新过车数据中的

18、号牌号码、号牌种类、车辆类型,关联设备信息表的设备编号、车道编号,按车辆号牌号码、号牌种类分组统计求和,筛选求和值大于1的车辆号牌号码、号牌种类,利用这组车辆所在点位的经纬度,计算这两辆车的距离,如果两个点位编号的距离大于500米,给这组车辆打上套牌车标签,标签值为1,否则为0车辆逾期未检验识别模型:使用最新过车数据中的号牌号码、号牌种类、车辆类型,关联车辆信息表的号牌号码、号牌种类、车辆类型,得到车辆检验有效截止日期,如果当前过车时间大于车辆检验有效截止日期,输出逾期未检验标签,标签值为L否则为0报废车辆上路行驶识别模型:使用最新过车数据中的号牌号码、号牌种类、车辆类型,关联车辆信息表的号牌

19、号码、号牌种类、车辆类型,得到车辆强制报废截止日期,如果过车时间大于强制报废截止日期,输出报废车辆标签,标签值为1,否则为07.2.3.3模型输出筛选模型输出标签值为1的数据作为模型识别结果假牌车识别模型:号牌号码、号牌种类、过车时间、设备编号套牌车识别模型:号牌号码、号牌种类、过车时间、设备编号车辆逾期未检验识别模型:号牌号码、号牌种类、过车时间、设备编号、车辆检验有效截止日期报废车辆上路行驶识别模型:号牌号码、号牌种类、过车时间、设备编号、强制报废截止日期7.3预测预警类模型7.3.1适用场景此类模型假设目标对象的历史行为规律在未来一段时间保持不变或者变化较小,根据历史数据预测未来,主要用

20、于识别有隐患的机动车和驾驶人,或道路安全评分,如重点驾驶人交通安全风险等级预测、重点机动车交通安全风险等级预测、国省干线安全隐患预警等。7.3.2使用数据重点驾驶人交通安全风险等级预测模型:驾驶人信息表中的驾驶人出生日期、性别、身份证明号码、初次领证日期、驾证期限、累计记分、超分日期、准驾车型、驾驶证状态、有效期止、有效期始、补证次数;违法信息表中的违法行为、违法时间、违法记分数、机动车使用性质、号牌号码、号牌种类;事故信息表中的事故发生时间、事故类型、碰撞方式、当场死亡人数、抢救无效死亡人数、重伤人数、轻伤人数、24小时内死亡人数、3日内死亡人数、7日内死亡人数、30日内死亡人数、机动车数量

21、、非机动车数量、行人数量、事故编号;事故人员信息表中的事故编号、身份证明号码、驾驶证种类;其他数据表中的身份证号码、是否吸毒人员重点机动车交通安全风险等级预测模型:违法信息表中的违法行为、违法时间、号牌号码、号牌种类;事故信息表中的事故发生时间、事故类型、碰撞方式、当场死亡人数、抢救无效死亡人数、重伤人数、轻伤人数、24小时内死亡人数、3日内死亡人数、7日内死亡人数、30日内死亡人数、机动车数量、非机动车数量、行人数量、事故编号;事故人员信息表中的事故编号、身份证明号码;机动车信息表中的号牌号码、号牌种类、身份证明号码、使用性质、强制报废期止、发牌日期、核定载客国省干线安全隐患预警:道路信息表

22、中的道路名称、道路代码、路面结构、行政区划、管理部门、道路类型、道路物理隔离、地形、公路行政等级、路侧防护设施类型、路段代码、路口id;事故信息表中的路号、路名、公里数、米数、管理部门、事故类型、事故发生时间、能见度、天气、当场死亡人数、重伤人数、轻伤人数、机动车数量、事故认定原因分类、地形;气象信息表中的管理部门、降雨量、降雪量、平均能见度、平均风速、湿滑系数7.3.3建模步骤7.3.3.1算法选择以上模型可以使用分类算法做等级预测和预警,分类算法可以选用的有:决策树、随机森林、逻辑回归、K-近邻算法、神经网络、Adaboost.XGBoost.朴素贝叶斯、支持向量机算法、线性分类器算法、梯

23、度提升数算法、高斯混合模型算法等。针对以上模型宜使用XGBoost算法进行建模。7.3.3.2划分数据集对特征选择输出的特征数据进行训练集、测试集、验证集划分,随机抽取其中75%的数据作为训练集,剩余15%数据作为验证集,10%作为测试集。7.3.3.3模型训练导入XGBoost算法模块,设置模型超参数,学习率为0.01,0.3,学习率步长为0.05,训练最大深度为5,15,提前终止的迭代次数为20,booster选用基于树的模型,最小样本权重设置0.3,0.8,损失函数选取SoftmaX损失函数,训练迭代次数为50,对训练集进行多轮训练,保存每一轮模型训练的参数和结果。选取一组训练结果较优的

24、模型参数,使用验证集对模型训练效果做验证,观察模型分类效果。7.3.3.4模型输出模型输出四个风险等级,分别为:重大风险(标签值1)较大风险(标签值2)、一般风险(标签值3)、低风险(标签值4)分类算法输出每个样本对应的分类的类别,重点驾驶人交通安全风险等级预测模型输出每个驾驶人的安全风险等级,重点机动车交通安全风险等级预测模型输出每辆重点机动车的安全风险等级,国省干线安全隐患预警输出每条道路每个路段的安全隐患等级。7.4异常检测类模型7.4.1 适用场景此类模型主要用于分析交管业务中产生的异常数据,进而挖掘背后隐藏的问题,如非现场违法取证设备异常检测、机动车非法营运识别、路口流量激增预警等7

25、.4.2 使用数据非现场违法取证设备异常检测模型:过车表中的经过时间、设备编号、车道号、号牌号码、号牌种类、方向;违法数据表中的违法时间、违法代码、管理部门、号牌号码、号牌种类、路口路段代码;卡口设备信息表中的设备编号、车道编号、管理部门、设备类型、点位编号、行政区划机动车非法营运识别模型:车辆信息表中的号牌号码、号牌种类、车辆类型、使用性质、核定载客;过车表中的经过时间、设备编号、车道号、号牌号码、号牌种类、方向、号牌颜色;道路信息表中的道路代码、路段代码、道路名称、路口id、路面名称;卡口设备信息表中的设备编号、点位编号、路口id,以及通过过车数据构造出的每天平均经过的点位数量,每天过车小

26、时时段数量,平均每天经过的道路条数、一个月内过车天数、平均每天经过不同点位数量、工作时间段过车天数、工作时间段过车天数占过车记录天数比例、工作时间段经过点位数量占全天过车经过点位数量比例、晚上(20:00后和07:00前)时段有过车记录天数路口流量激增预警:道路信息表中的道路名称、道路代码、行政区划、管理部门、道路类型;过车表中的过车时间、号牌号牌、号牌种类、设备编号、车道编号;卡口设备信息表中的设备编号、车道编号、路段代码、路口id、行政区划、管理部门7.4.3建模步骤7.4.3.1算法选择非现场违法取证设备异常检测模型、驾驶证考试合格率异常分析模型、路口流量激增预警可以使用时间序列算法建模

27、,算法主要有:移动平均法、周期因子法、指数平滑算法、ARIMA、ProphetRSIHolt-WintersRNN、LSTMseq2seqDeepARWaveNet等,非现场违法取证设备异常检测模型、驾驶证考试合格率异常分析模型宜采用Prophet算法。机动车非法营运识别模型可以使用异常检测算法建模,算法主要有:基于分布的Z-Score3sigmaboxplotGrUbbS假设检验,基于距离的KNN,基于聚类的DBSCAN、基于树的iForest基于降维的PCA、AutoEncoder基于分类的One-ClassSVM,基于密度的LOF、SOSCOF等,机动车非法营运识别模型宜采用基于树的iF

28、orcst算法。7.4. 3.2划分数据集对于时间序列异常检测算法,按照时间顺序,选取前90%的数据作为训练集,后10%的数据作为验证集。对于异常检测类算法,使用特征选择输出的特征数据进行训练集、测试集、验证集划分,随机抽取其中75%的数据作为训练集,剩余15%数据作为验证集,10%作为测试集。7. 4.3.3模型训练时间序列异常检测算法模型训练:导入ProPhet算法模块,设置模型超参数,时间序列数据增长趋势为logistic,变化点灵敏度设置为低,季节性灵敏度设置为高,假期效果灵敏度设置为高,置信度区间为0.8,0.85,步长为0.OL季节性周期为月,季度,变化点数量设置25,35,步长为

29、1,假期日期加入中国法定节假日。超参数设置完成后,对模型迭代训练,迭代次数为50,保存每轮,保存模型训练参数。选取一组训练结果较优的模型参数,使用验证集对模型训练效果做验证,观察模型预测效果。异常检测类算法模型训练:导入iForest算法模块,设置算法超参数,基本估算器n_cstimators数量设置100,200,最大样本数量max_samples为auto,最大特征数量为5,10。超参数设置完成后,对模型迭代训练,迭代次数为50,保存每轮,保存模型训练参数。选取一组训练结果较优的模型参数,使用验证集对模型训练效果做验证,观察模型异常检测效果。8. 4.3.4模型输出使用时间序列异常检测模型

30、输出的时间点和数值和实际的数值做比较,如果实际值超出预测值的30%,则认为实际值有异常;异常检测算法输出异常值标签(以标签值为-1时为异常值)和对应的异常数据。非现场违法取证设备异常检测模型输出异常的设备编号和异常检测值、对应的时间路口流量激增预警模型输出路段代码、路口id、车道编号、监测时间、预测流量机动车非法营运识别模型输出识别为疑似非法营运的车辆号牌号牌、号牌种类以及异常值标签。8模型评估8.1 评估指标8.1.1 预测预警类模型评估指标预测预警类模型评估指标可以选用:混淆矩阵、精确率、准确率、召回率、FI值、AUC值、RoC曲线、PR曲线。针对预测预警类模型宜使用FI值作为评估指标。计

31、算FI值:在验证集数据中,模型预测为真正正确样本(TP)的个数,除以所有预测为正确样本个数(TP+FP),计算公式为:P=TP(TP+FP);模型预测为真正正确样本(TP)的个数,除以所有的实际为正样本个数(TP+FN),计算公式为:R=TP/(TP+FN);根据查准率P和查全率R,等到Fl值=2*P*R(P+R)。8.1.2 异常检测类模型评估指标异常检测类模型中时间序列算法评估指标可以选用:均方根误差(RMSE)平均绝对偏差(MAE)、偏差(BIAS)相关系数(CORR)和准确率(ACCURATE)o宜采用均方根误差(RMSE)作为评估指标。均方根误差(RMSE):rmse=sqrt(su

32、m(y_real-y_predict)*2)/len(y_real)异常检测类模型中异常检测算法评估指标可以选用:混淆矩阵、精确率、准确率、召回率、Fl值、AUC值、ROC曲线、PR曲线。宜使用AUC值作为评估指标。计算AIJC值:通过计算ROC曲线下的面积,得到AUC值,AUC取值范围在0,1之间。8.2 评估方法8. 2.1统计分析类模型评估方法统计分析类模型评估方法主要有两种:数据源的验证和数据处理过程的验证。数据源的验证:验证源数据的正确性,避免数据输入错误等因素造成影响。需要仔细核对业务数据的准确性,并确保数据源的一致性和完整性。数据处理过程的验证:对所有处理数据的过程进行验证和确保

33、,如计算、汇总、筛选、转换等。8. 2.2业务规则类模型评估方法业务规则类模型评估方法主要有三种:数据源的验证、比对实际业务流程和规则冲突检测。数据源的验证:验证源数据的正确性,避免数据输入错误等因素造成影响。需要仔细核对业务数据的准确性,并确保数据源的一致性和完整性。比对实际业务流程:通过与实际的业务规则进行比对和核对,判断业务规则类模型的准确性和适用性,以便找出是否存在问题及问题的原因。规则冲突检测:判断业务规则类模型中是否存在冲突或重复规则,并及时调整或修正。8. 2.3预测预警类模型评估方法预测预警类模型评估方法有留出法、交叉验证法、自助法,宜采用交叉验证法。使用K折交叉验证,将所有训

34、练数据集分成K个大小相当的子样本,取其中一个子样本作为验证集,其余KT个作为训练集,最后对K次建模的结果进行综合评价,验证每轮训练的模型预测效果,以及对应的参数值设置,选择最优的预测效果对应的参数值,作为模型最优参数,K值可以选择5,10之间的数值。9. 2.4异常检测类模型评估方法异常检测类模型评估方法有留出法、自助法、K折交叉验证、留一法,宜采用留一法。对于一个包含n个样本的数据集,将其中一个样本作为测试集,使用剩下的nT个样本作为训练集,对模型进行训练和评价。循环遍历每一个样本,得到n次模型评估结果的平均值,得到最终的模型性能指标。8. 3评估结果处理8.3.1统计分析与业务规则类模型评

35、估结果统计分析与业务规则类模型统计结果准确率0.95,则认为模型符合业务要求,可以进行线上部署。8.3.2预测预警类模型评估结果预测预警类模型使用XGBoost算法进行建模。预测预警类模型最优参数选择:学习率为0.12,训练最大深度为8,提前终止的迭代次数为20,booster选用基于树的模型,最小样本权重设置0.35,损失函数选取Softmax损失函数。预测预警类模型预测结果FI值0.9,则认为模型符合业务要求,可以进行线上部署。8.3.3异常检测类模型评估结果异常检测类模型中时间序列模型使用Prophet算法算法进行建模。时间序列算法模型最优参数选择:时间序列数据增长趋势为logistic

36、,变化点灵敏度设置为低,季节性灵敏度设置为高,假期效果灵敏度设置为高,置信度区间为0.82,季节性周期为月,变化点数量设置30,假期日期加入中国法定节假日。异常检测类模型中时间序列算法预测结果均方根误差(RMSE)0.1,则认为模型符合业务要求,可以进行线上部署。异常检测类模型中异常检测模型使用iForest算法进行建模。异常检测类模型中异常检测算法模型最优参数选择:基本估算器estimators数量设置160,最大样本数量max_samples为auto,最大特征数量为8。异常检测类模型中异常检测算法预测结果AUC值0.9,则认为模型符合业务要求,可以进行线上部署。9模型发布模型达到预定效果

37、即可发布到公安交管数智能力开放平台作为版本归档和模型历史操作追溯。同时提供模型服务发布地址以供相关人员调用。附录A(规范性)驾驶人信息表字段名称类型可为空说明SFZMHMVARCHAR(18)否身份证明号码ZJCXVRCHR(15)是准驾车型YZJCXVARCHAR(30)是原准驾车型QFRQDATE否下一清分日期SYRQDATE是下一审验日期CCLZRQDATE否初次领证日期CCFZJGvarchar(io)是初次发证机关JZQXCHAR否驾证期限YXQSDATE否有效期始YXQZDATE否有效期止LJJFNUMBER(3)否累积记分CFRQDATE是超分日期BZCSNUMBER(2)否补证

38、次数ZTVARCHAR(6)否驾驶证状态JXMCVARCHAR(64)是驾校名称XZQHvarchar(io)否行政区划FZRQDATE否发证日期GLBMVARCHAR(12)否管理部门SFZMMCCHAR是身份证明名称XMVARCHAR(30)是姓名XBCHAR是性别CSRQDATE是出生日期GJCHAR(3)是国籍SJHMVARCHAR(20)是手机号码SFBDCHAR是是否本地附录B(规范性)机动车信息表字段名称类型可为空说明HPZLCHAR否号牌种类HPHMVRCHAR(15)否号牌号码CLPPlVARCHAR(32)否中文品牌CLLXCHAR(3)否车辆类型CSYSVRCHR(5)否

39、车身颜色SYXZCHAR否使用性质SFZMHMVARCHAR(18)是身份证明号码SFZMMCCHAR是身份证明名称SYRVRCHR(128)否机动车所有人SYQCHAR否所有权CCDJRQDATE否初次登记日期DJRQDATE是最近定检日期YXQZDATE是检验有效期止QZBFQZDATE是强制报废期止GLBMVARCHAR(12)否管理部门FPRQDATE是发牌日期FZRQDATE是发行驶证日期CLLYCHAR是1注册2转入3过户HDZKNUMBER(3)是核定载客BXZZRQDATE是保险终止日期附录C(规范性)违法信息表字段名称类型可为空说明WFBHVARCHAR2(22)否违法编号R

40、YFLCHAR否人员分类JSZHVARCHAR2(18)否驾驶证号DABHVARCHAR2(12)否档案编号ZJCXVARCHR2(10)否准驾车型DSRVARCHAR2(30)否当事人ZSXZQHVARCHAR2(10)是住所行政区划LXFSVARCHAR2(128)是联系方式CLFLCHAR否车辆分类HPZLVARCHAR2(2)是号牌种类HPHMVARCHAR2(15)是号牌号码JDCSYRVARCHAR2(128)是机动车所有人SYXZVARCHAR2(1)是机动车使用性质JTFSVARCHAR2(3)否交通方式WFSJDATE否违法时间XZQHVARCHAR2(6)否行政区划DLLX

41、VARCHR2(2)否道路类型DMLB=3124GLXZDJVARCHAR2(1)是公路行政等级DMLB3116WFDDVARCHAR2(5)否违法地点LDDMVARCHAR2(4)否路口路段代码,当为城市道路时存放路口号,为高速、省道等时存放公里数WFDZVARCHAR2(128)否违法地址WFXWVARCHAR2(5)否违法行为WFJFSNUMBER(2)否违法记分数FKJENUMBER(6)否罚款金额CFZLVARCHAR2(10)否处罚种类XXLYCHAR否信息来源1-现场处罚,2-非现场处罚ZQMJVARCHAR2(30)否执勤民警附录D(规范性)事故信息表字段名称类型可为空说明XZ

42、QHVarchar(IO)否行政区划DJBHVRCHR(15)否登记编号SGFSSJDATE是事故发生时间LHVARCHAR(7)是路号LMVRCHR(64)是路名GLSNUMBER(5)是公里数MSNUMBER(4)是米数JDWZNUMBER(8)是绝对位置SGDDVARCHR(128)是事故地点DLAQSXVARCHAR(1)是道路安全属性SWRSNUMBER(3)是当场死亡人数SWRSQNUMBER(3)是抢救无效死亡人数SWRS24NUMBER(3)是24小时死亡人数SSRS24NUMBER(3)是24小时受伤人数SWRS3NUMBER(3)是3日内死亡人数SSRS3NUMBER(3)

43、是3日内受伤人数SWRS7NUMBER(3)是7日内死亡人数SSRS7NUMBER(3)是7日内受伤人数SWRS30NUMBER(3)是30日内死亡人数SSRS30NUMBER(3)是30日内受伤人数SZRSNUMBER(3)是失踪人数ZSRSNUMBER(3)是重伤人数QSRSNUMBER(3)是轻伤人数SSRSNUMBER(3)是受伤人数JDCSLNUMBER(3)是机动车数量FJDCSLNUMBER(3)是非机动车数量XRSLNUMBER(3)是行人数量SGLXCHAR是事故类型CCYYFLVARCHAR(2)是事故初查原因分类RDYYFLVARCHAR(2)是事故认定原因分类TQCHA

44、R是天气NJDCHAR是能见度SFTYCHAR是是否逃逸I-否2-驾车逃逸3-弃车逃逸XCLJSGVARCHAR(1)是车辆间事故DCSGVRCHR(2)是单车事故PZFSVARCHAR(1)是碰撞方式1-单车2-双车3-多车4-车人事故YZWXPCHAR是是否运载危险物品1-是2否GLXZDJCHAR是公路行政等级DXCHR是地形附录E(规范性)事故人员信息表字段名称类型可为空说明SGBHVARCHAR(16)否事故编号XZQHVarchar(IO)否行政区划SFDSRCHAR是当事人否XMVARCHAR(30)是姓名XBCHAR是性别SFZMHMVARCHAR(20)是身份证明号码NLNUMBER(3)是年龄CSNYvarchar(io)是出生年月DHVARCHAR(30)是电话SFTYVARCHAr(I)是是否逃逸SWSJDATE是死亡时间SHCDCHAR是伤害程度SHCD24CHAR是24小时内伤害程度SHCD3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号