《人工智能识别林长制巡查的影像数据样本库建设指南-征求意见版v8.docx》由会员分享,可在线阅读,更多相关《人工智能识别林长制巡查的影像数据样本库建设指南-征求意见版v8.docx(23页珍藏版)》请在课桌文档上搜索。
1、ICS35.020CCSL70T/SHLY团体标准T/SHLY*人工智能识别林长制巡查的影像数据样本库建设指南Guidelinesfortheconstructionofimagedatasampledatabaseforartificialintelligencerecognitionforestchiefschemeinspection(征求意见稿)上海市林学会发布目次前言U1范围12规范性引用文件13术语和定义14建设内容35工作流程96数据样本分类与组织117数据样本处理128数据样本入库139质量控制1410建设成果1511数据样本安全15附录A16前言本文件按照GB/T1.2020
2、标准化工作导则第一部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由上海市林学会提出并归口。本文件起草单位:上海岩易科技有限公司、上海市林业总站。本文件主要起草人:周俊峰、蒋含笑、韩玉洁、李琦、刘璐璐、吴尧。首期承诺执行单位:上海岩易科技有限公司、上海元易勘测设计有限公司、上海仲蓝信息科技有限公司、常州市新翼空间信息科技有限公司、武汉中地数码科技有限公司、上海宝天信息科技有限公司、南京韬讯航空科技有限公司、河南恩盾智能科技有限公司、河南鹏禄电子科技有限公司。人工智能识别林长制巡查的影像数据样本库建设指南1范围本文件提供
3、了人工智能识别林长制巡行的影像数据样本库建设的指导建议。包括建设内容、工作流程、数据样本分类与组织、数据样本处理、数据样本入库、质量控制、建设成果及数据样本安全的信息。本文件适用于为训练智能识别林长制巡查典型违规场景的人工智能模型,而进行的影像数据样本库建设工作。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T14911测绘基本术语GB/T17798地理空间数据样本交换格式GB/T24356测绘成果质量检查与验收GB/T41867信息技
4、术人工智能术语1.Y/T1662.7数字林业标准与规范第7部分:数据样本库建库标准1.Y/T1662.7数字林业标准与规范第9部分:数据样本库管理规范1.Y/T1662.7数字林业标准与规范第10部分:数据样本库管理规范1.Y/T2930林业数据样本采集标准规范3术语和定义下列术语和定义适用于本文件。人工智能artificialintelIigence;Al人工智能系统相关机制和应用的研究和开发。来源:GB/T418673.2影像数据样本imagedatasampIe包含目标物体或场景的影像。能看清物体特征,无过曝、模糊、撕裂等情况,关键日标场景的遮挡、覆盖面积小于10乳包含全色影像、多光谱影
5、像、高光谱影像等多种类型。3.3数据标注datalabelling给数据样本指定目标变量和赋值的过程.来源:GB/T418673.4标签数据样本IabeldatasampIe本文件中是指对于影像数据样本的标注,通过区域标注、框标注、线标注等数据样本标注技术,标识出数据样本中需要识别的场景或物体。3.5元数据metadata数据的内容、质量、状况和其他特性的描述数据。来源:GB/T14911对数据进行描述的数据,即数据的标识、覆盖范围、质量、空间参照系和分发等信息。来源:LY/T29303.6实时检验o11-goinginspection实时检验是数据标注过程中一种随标随检”的检验方式,能够及时
6、发现存在的问题,并降低重复问题的出现次数。一般而言,为保证最终交付质量,降低修改成本,实时检验是数据样本标注中必不可少的环节。全量检验full-scaleinspection全量检验是对整个标注数据集的核验,能够有效统一不同标注员的主观因素造成的标注区别,并对整批次数据进行准确率评估。3.8批次抽验batchsampIinginspection批次抽验是对待交付的数据进行抽验的过程,一般在全量检验工作量过大或交付时限紧张时进行。3.9影像数据样本库imagedatabase基于计算机软硬件系统,遵循统一分类体系,涵盖多尺度(天、空、地)、多源数据样本、多季节、多地区的数据集,具备数据样本类别动
7、态扩展,同时能满足场景、目标、像素等不同层级的精准识别要求,实现数据样木组织、存储、查询和管理的数据样木仓库。3.10数据集dataset可以标识的数据样木集合。数据集可以是数据样本库,也可以是数据样本库的一个(逻辑组成)部分。来源:LY/T1662.73.11林长制巡查forestchiefschemeinspection根据林长制精神,对林地、绿地中的违法违规和失管失养护问题的巡逻、检查、上报、处置等工作,一般分为日常巡查与专业巡查。4建设内容4.1影像数据样本库框架影像数据样本库建设内容包括确定需求、建立数据样本库、管理数据样本库3个部分,如图1所示。确定需求数据样本分类数据样本采集数据
8、样本标注S数据样本入串建立数据样本库影像数据样本库标签数据样本库数据样本管理管理数据样本库数据样本扩充数据样本查询数据样本修改数据样本下载数据样本删除数据样本统计图1影像数据样本库框架图4.2确定需求4.2.1数据样本分类4.2.1.1分类原则1)场景类型主要包括林业监管部门关注的林长制巡查重点违规场景;2)应采用多级分类法:3)分级和分类应当考虑平衡实际巡检要求及计算机视觉原理;4)宜使用定量与定性结合的方法描述每个类别的场景特征:5)应考虑不同地区林长制巡查场景的共性。4.2.1.2分类内容根据林业主管部门对林长制巡查的工作要求,按照工作场景进行分类,按照场景内容和类别进行分级。4.2.2
9、数据样本采集4.2.2.1采集前期准备影像数据样本采集前期准备工作,包括组织准备、技术准备和其他准备:1)组织准备:组织影像数据样本采集团队,明确团队责任和分工等:2)技术准备:指定影像数据样本采集工作方案、技术方案和操作细则等,并作好相应记录:3)其他准备:明确影像数据样本采集对象,采集季节、采集数量以及采集地点等。4.2.2.2数据样本类型根据数据样本采集设备不同,数据样本类型主要包括手持设备拍摄图片、遥感影像、无人机影像、地面监控影像及其他方式采集的影像。4.2.2.3采集方法1)手持设备拍摄图片通过手持手机或者相机等设备采集影像数据样本。2)遥感影像根据遥感影像数据获取的平台不同,分为
10、卫星遥感影像、航空遥感影像等。通过国内外卫星搭载的遥感传感器获取卫星遥感影像数据样本:通过飞行器(如飞机、飞艇等)搭载的遥感传感器获取航空遥感影像数据样本。3)无人机影像通过无人机搭载相机、多/高光谱成像系统等设备拍摄获取的影像数据样本。4)地面监控影像调取地面固定摄像头拍摄的视频画面。5)其他方式采集的影像包括但不限于行车记录仪采集的影像数据样本等。4.2.2.4元数据相关信息记录元数据贯穿影像数据样本库建设的全过程,影像数据样本元数据、标签数据样本元数据等。按照LY/T1662.10-2008数字林业标准与规范第10部分:元数据样本标注的规范,影像数据样本元数据和标签数据样本元数据应包括标
11、识信息、数据样本质量信息、空间表示信息、空间参照信息和时间序列信息。4.2.2.5采集数据样本格式数据样本格式应满足GB/T17798的要求。影像数据样本格式应支持常用的遥感影像数据样本、无人机影像数据样本以及地面监控摄像影像数据样本格式,包括TIFF/GeoTIFF、JPEG等常见格式。4.2.3数据样本标注流程与检验方式数据样本标注基本流程,如图2所示。标注数据集整理4.2.3.1标注角色在标注员和质检员投入正式生产前,应由数据标注培训师对其进行标准、操作规范、业务需求的相关培训。人工数据标注中的用户角色至少需要包括以下两类:1)标注员负责标注数据样本,通常是根据具体数据样本标注要求,经过
12、一定专业培训的人员来担任。对于某些特定场景且对标注质量要求较高,由模型训练人员或者领域专家来担任。2)质检员负责审核已标注的数据样本,完成数据样本校对和数据样本统计,适时修改错误并补充遗漏的标注。一般由经验丰富的标注人员或权威专家来担任。4.2.3.2标注工具对影像数据样本进行标注时,根据具体的识别内容和人工智能算法模型选择合适的标注工具,可视采用全手工标注或半自动标注软件。图像数据样本的标注工具一般采用2D框或多边形。姿态识别的标注工具一般采用关键点或线条。4.2.3.3标注对象数据样本类型主要是图像,图像标注一般要求标注员对不同的场景标注上对应的标签类别,用标签来概述场景内容,以便让算法模
13、型能够识别图像中的不同场景或者目标。在实际操作中需要根据实际情况进一步细化。4.2.3.4标注质量通常情况下,不同数据样本集对标注准确率的不同,需视具体的项目和识别需求制定。图像标注的质量的评判标准主要有如下几个因素:D标注标签分类是否正确;2)标注标签名称是否正确:3)标注框线边缘与标的物实际边缘的偏差;4)标注标准与审核标准在同一批样本中是否保持一致。4.2.3.5注意事项数据样本标注应当注意下列事项:D一般而言,对于分割类模型标注,标的物的标注框中不能再嵌套其它标的物,确实存在重合或遮挡的,应当严格贴合其可见的边缘标注,或对存在遮挡关系的部分进行挖空处理。2)对于分割类模型标注,应严格按
14、照场景的边缘贴边标注,一般标注框线与标的物边缘的偏差应小于1像素。对于目标检测类模型标注,可采用最小包围框的方式,标注与标的物边缘贴合的最小矩形框。3)标注过程中,标注员的标注方法和尺度应统一。4)对于超出已制定场景分类的情形,一般不标注。5)对于模糊、拖影等难以判别类型或边缘的数据样本,一般不标注。6)特定复杂场景的最小标注面积和最大允许误差,需要根据具体的算法模型训练和巡检实际要求确定。一般而言,宽高小于30X30像素的不宜标注:7)标注标签宜以英文字符命名,应大于6个字符,大小写需要保持一致。4.3建立数据样本库建立数据样本库主要包括影像数据样本库、标签数据样本库、文档数据库和元数据库4
15、个部分,并分别包含其本身的数据样本描述,即元数据。4.4管理数据样本库管理数据样本库主要包括数据样本扩充、修改、删除、查询、统计和下载六个部分。5工作流程人工智能识别林长制巡查的影像数据样本库建设流程主要分为以下五个部分:1)场景类型划分及标准制定:确定识别场景和需求,根据人工智能基本原理和林长制巡查业务实际需求,划分识别场景,明确各类场景的典型特征,确定标注的尺度和准确度要求。2)数据样本采集:通过手持设备、固定摄像头、卫星、飞行器等设备搭载的传感器,采集包含目标物体或场景的影像数据样本。3)数据标注:通过标注工具,对目标物体或场景进行标注。4)数据样本入库:主要指影像数据样本、标签数据样本
16、、相关文档以及元数据的入库5)数据样本库管理和维护:对数据样本库中的数据样本进行备份、修改、新增、删除等操作工作流程如图3所示。IO6数据样本分类与组织6.1数据样本内容数据样本内容主要包括以下三个方面:1)影像数据样本数据样本格式应满足GB/T17798的要求。影像数据样本格式应支持常用的遥感影像数据样本、无人机影像数据样本以及地面监控摄像影像数据样本格式,包括TIFF/GeoTIFF、JPEG等常见格式。2)标签数据样本数据样本标签数据样本格式主要有json、xml、csv、ShP和XlS等。标签数据样本文件应能够与原始影像数据样本对应。3)文档数据数据采集与标注过程中产生的文档数据,包括
17、但不限于标注经验教训文档、标注版本修改说明文档等。4)元数据元数据用于描述数据样本的内容、覆盖范围、质量、管理方式以及数据样本提供方式等有美信息。影像数据样本库中的元数据主要是文本形式。6.2数据样本组织6.2.1数据样本组织原则数据样本库按照数据样本库、数据集和元数据表分层方式进行组织。示例如图4所刁、O图4数据样本库组织6.2.2数据样本组织方式数据样本影像组织管理可采用数据样本库、数据样本库与文件相结合等方式。1)数据样本库数据样本库将数据样本的结构化元数据样本信息和影像体已数据样本表的形式存储在数据样本库中,对于TB级数据样本规模以下的数据样本库可采用该组织方式。2)数据样本库与文件相
18、结合数据样本库与文件结合的组织方式将非结构化的影像体以文件形式存储在存储设备中,以及将影像的结构化元数据信息及文件路径存储在数据样本库中,通过文件路径将数据样本库和影像数据样本文件关联。对于TB级以上数据样本规模可采用在线存储,对于PB级以上数据样本规模可采用在线、近线及离线的多级存储。7数据样本处理7.1数据样本预处理将存在重叠、模糊、影像中不含或者含较少的林长制巡查场景、过曝、撕裂、拖影等情形的影像数据样本进行剔除。7.2数据样本质检对影像数据样本、标签数据样本和元数据进行检直,并在检查记录表中填写数据样本质量问题的详细信息。7.3数据样本修改数据样本检查完后,对存在问题的数据样本进行修改
19、和核对,根据对数据样本检查的记录,对存在问题的数据样本进行定位、分析和修改。在数据样本修改过程中,应对每个质量问题的修改方式进行记录,并逐项修改前数据样本、修改后及修改依据。7.4数据样本复核数据样本修改完成后,要复核修改后的数据样本是否正确,防范对没有错误的数据样本进行修改,避免引入二次错误。在复核方式上,实施交叉式的数据样本修改复核,即对发生的错误修改,安排与实施该修改的不同人员进行复核。8数据样本入库8.1数据样本准备按照设计的要求收集所需的各类数据样本和资料,并整理、建档和备份,待将入库数据样本存放到预设的存储空间上。8.2数据样本库命名8.2.1命名原则数据样本库的命名有如下规则:1
20、)唯一性:所有的数据样本库、数据集和元数据表均有唯一名称。2)简练性:名称尽量简练。3)扩展性:数据样本库、数据集和元数据表名应留有可扩展的余地。8.2.2命名方法按照数据样本库数据集(巡检类型)一数据集子集(一级类)f数据集子集的子集(二级类)的层次结构分级分层进行命名。1)数据样本库的命名数据样本库的命名为LX,即林长制巡查中文名称大写拼音缩写。2)数据集及数据集子集的命名以LX(林长制巡查)为标识字母,按照林长制巡查场景分类表中的场景类别代码进行命名。数据集命名格式为:LXXX,数据集子集命名格式为LXXXXX,数据集子集的子集命名格式为:LX_XXXXXX。以林长制巡查场景分类表中,巡
21、检类型为林地巡检时,一级类为资源保护,二级类为枯枝堆放的命名方法为例进行说明。数据集命名:LX01,数据集子集命名:LX0101,数据集子集的子集命名:LX010101.3)元数据表的命名元数据表的命名与对应的数据集、数据集子集以及数据集子集的子集的命名保持一致。以林长制巡查场景分类表中,林地巡检中,一级类为资源保护,二级类为枯枝堆放的命名方法为例进行说明。数据集元数据表命名:LX01,数据集子集元数据表命名:LX0101,数据集子集的子集元数据表命名:LX0101018.3数据样本入库前检查数据样本入库前对每类数据样本进行检查,并对各项检查进行登记,不符合建库要求的数据样本,按照一定的工序进
22、行修改,确保入库数据样本符合相应的技术要求。数据样本检查方法可采用程序辅助批量检查和人机交互检查两种。应根据不同的数据样本类型和检查内容,采用不同的检查方法。当时用程序进行检杳时,应在正式检查前对程序进行严格、充分的测试。检查形式采用过程检行和最终检查结合的二级检查形式,过程检行由数据样本采集和标注部门承担,最终检查由专门质检部门负责实施。检查内容和要求按GB/T24356规定实施。8.4数据样本入库数据样本入库按照设计的数据样本组织方式进行,入库前后的数据样本存放位置应与设计时保持一致。数据样本可采用手动、批量或自动入库的方式。入库完成后应记录数据样本入库日志.8.5数据样本入库后检查入库后
23、应检杳入库数据样本的正确性和完整性,包括:数据样本是否存放在规定的数据样本表中,入库后数据样本是否完整,入库前后数据样本是否一致,数据样本是否重复入库等“9质量控制9.1数据样本成果要求影像数据样本库建设的数据样本成果应满足以下要求:1)影像数据样本清晰,不存在遮挡或者模糊等情形;2)标签数据样本应按照统一的分类体系和标注规范进行标注:3)数据样本元数据表中的信息正确无误。9.2文档类成果要求文字要求应满足以下要求:1)质量控制文档齐全,包括作业情况记录表、数据样本源质量检杳表。2)工作汇报、技术报告等报告文件内容丰富、描述准确、逻辑清楚。10建设成果10.1数据样本成果数据样本成果主要是指影
24、像数据样本库、标签数据样本库和元数据库。10.2文档类成果成果文档主要包括:建库过程中产生的质量控制文档、工作报告、技术报告等。11数据样本安全数据样本库安全保障应建立必要的安全管理制度,落实安全保密责任,采取安全责任,确保数据样本库中的数据样本和运行环境安全。包括指定安全目标和安全策略,划分和审批不同用户权限,进行密码保管和实效设定,联网计算机范围、环境和介质的管理等。制定数据样本库访问、入库、导出、更新、备份等工作流程,进行软硬件设备管理,明确操作人员和管理人员职责,明确数据样本应用范围,进行系统操作日志管理等。附录A(规范性)数据样本源要求表A.I至表A.6提供了不同数据表的示例:表A.
25、1林长制巡查场景分类表巡查类型代码一级类代码二级类代码林地巡检Ol资源保护OlOl枯枝堆放OlOlOl烟雾010102火焰010103吸烟姿态010104病虫危害010105加拿大一枝黄花010106林地面貌0102温室大棚010201农作物010202生活垃圾010203建筑垃圾010204树木倒伏010205植被枯黄010206死树010207棚房010208具他类别0103违章建筑010301路面010302林地空秃010303河道010304球地巡检02基础设施0201破损井盖020101景观面貌0202枯枝堆放020201病虫危害020202林地空秃020203树木倒伏020204植
26、被枯黄020205死树020206环境保I士/0203生活垃圾020301建筑垃圾020302表A.2林长制巡查数据集元数据表字段字段类型字段长度说明DatasetSummarychar1000数据集概要Unpdated-Datedate20更新时间Dataset_Versionchar100数据集版本编号Samp1eNumberchar100数据数量Sample_Sizechar100数据尺寸TaskTypechar100任务类型Image_Typechar100影像类型Resolutionchar100分辨率BandNumbcrchar100波段数Image_Formatchar100影像
27、格式ImageSensorchar100影像传感器Coordinate_Systemchar100坐标系统Scene_Categorychar500场景类别LabeI_typechar100标注形状类型DownloadLinkchar100下载链接Data_Adminchar100数据负责人Contact_numberchar100联系电话Emailchar100邮箱Companychar100单位Addresschar100地址表A3林长制巡查数据样本采集计划表字段字段类型字段长度说明是否必填PlanJDchar100计划编号是EstimatcdDatedate预计采集日期是Estimate
28、dAerachar100预计采集地点是EstimataedRangechar100预计采集区域范围是Estimated_problemchar100预计采集主要场景类型是Methodchar100采集方式是Estimated_Wcather_Conditionchar100预计天气情况是Estimated_Temperatureint20预计温度(C)是EstimatedWindConditionchar100预计风力风向是Estimated_Humidityint20预计湿度(%)否PersonnelArrangementchar100人员安排是Group_IDchar100小组编号否Rem
29、arkschar100备注否EstimataedEquipmentchar200预计设备型号是表A.4林长制巡查数据样本采集信息表字段字段类型字段长度说明是否必填Plan,IDchar100计划编号是Personnelchar100作业人员是Group_IDchar100小组编号否Addresschar100地址1镇)否BottomClassNumberchar100所属小班编号否Longitudechar100经度是LatitudeChar100纬度是EquipmentModelchar100设备型号是Flight_Modechar100飞行方式否Mounted_Sensorchar100挂
30、载传感器否Data_Formchar100数据样本类型是ShootingHeightint10拍摄高度(m)否ShootingSpeedint10拍摄速度(m/s)否Shooting_datedate/拍摄时间是Camera_Angleint10拍摄角度(度)否Scene_Typechar100场景类型否Remarkschar100备注否WeatherConditionchar100天气情况是表A.5林长制巡查影像数据样本元数据表字段字段类型字段长度说明Image_Namechar100影像文件名Image_UIDint100影像编号Image_Storage_Pathchar100影像存储路径Image_Forinatchar100影像格式Shootingdatedate/拍摄日期Resolutionchar100像素分辨率表A.6林长制巡查标签数据样本元数据表字段字段类型字段长度说明LabelFileNamechar100标签文件名称lmage_UIDint100影像编号Label_Storage_Pathchar100标签存储路径Label_Formatchar100标签格式Edit_Datedate20修改日期LabelVersionchar100标签版本Scene_Categorychar200场景类别Label_typechar100标注形状类型