YD_T 4515-2023 移动智能终端智能化性能基准测评方法.docx

资源描述

《YD_T 4515-2023 移动智能终端智能化性能基准测评方法.docx》由会员分享，可在线阅读，更多相关《YD_T 4515-2023 移动智能终端智能化性能基准测评方法.docx（18页珍藏版）》请在课桌文档上搜索。

1、ICS33.050CCSM37YD中华人民共和国通信行业标准YD/T45152023移动智能终端智能化性能基准测评方法Benchmarktestmethodsforintelligenceperformanceofmobilesmartterminal2023-12-20发布2024-04-01实施中华人民共和国工业和信息化部发布目次前言II1范围12规范性引用文件13术语、定义和缩略语14测试概述24.1 移动智能终端智能化测试构架24.2 通用测试方法34.3 性能指标监测35图像处理测试方法45.1 图像分类45.2 人脸识别55.3 目标语义分割75.4 图片超分辨率95.5 目标检测

2、116视频处理测试方法146.1 推理集要求146.2 测试模型146.3 测试方法146.4 测试指标14前言本文件按照GB/T1.1-2020标准化工作导则第1部分：标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的费任。本文件由中国通信标准化协会提出并归口。本文件起草单位：中国信息通信研究院、中国电信集团有限公司、OPPo广东移动通信有限公司、高通无线通信技术（中国）有限公司、北京小米移动软件有限公司、中国一东盟信息港股份有限公司、华为技术有限公司、北京三星通信技术研究有限公司、北京奇虎科技有限公司、维沃移动通信有限公司、北京百

3、度网讯科技有限公司。本文件主要起草人：解谦、张睿、庞涛、贾利敏、杜志敏，刘欣、李小娟、卢炳全、高立发、马艳军、洪明、朱亚军、朱政、雷震、吴春雨、姚一楠。Il移动智能终端智能化性能基准测评方法1范围本文件规定了通过使用神经网络模型在移动智能终端侧进行推理计算的基准测试的方法，对终端基于神经网络模型的计算性能进行评估。评测场景包括图像处理、视频处理等不同场景，针对不同场景测试集、测试方法和评测指标提出要求。本文件适用于具备智能操作系统的移动智能终端，包括数字移动电话机、平板电脑以及其他数字移动通信终端设备。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适

4、用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。本文件没有规范性引用文件3术语、定义和缩略语3.1 术语和定义本文件没有需要界定的术语和定义。3.2 缩略语下列缩略语适用于本文件。AI人工智能ArtificialIntelligenceCPU中央处理器CentralProcessingUnitDSP数字信号处理DigitalSignalProcessingFAR错误接受率FalseAcceptanceRateFN错误的负样本FalseNegativeGPU图形处理器GraphicsProcessingUnitIoU交并比IntersectionoverUnion

5、mAP平均准度均值meanAveragePrecisionNPU神经网络处理器NeuralNetworkProcessingUnitPR正确通过率PassRateTP真正的正样本TruePositiveTP90尾部延迟90分位TaiIlatenCyat90thPercentiles4测试概述4.1 移动智能终端智能化测试构架人工智能终端的基准测试指通过运行一段（一组）程序或者操作，来评测终端相关性能的活动。移动智能终端人工智能性能基准测试包括图像处理、视频处理测试。在移动智能终端上通过神经网络模型对基准推理集进行推理测试，评测移动智能终端整机的人工智能处理性能。移动智能终端智能化测试构架如图1

6、所示。图1移动智能终端智能化涌试构架4.1.1 神经网络模型用于人工智能计算，神经网络模型应为经过训练且达到一定准确率的模型，包括模型结构和变量参数。4.1.2 三y作为人工智能推理计算的输入数据集，可以为图片、视频等格式的数据或文件。4.1.3 移动终端人工智能推理框架4.1.3.1 总体要求移动终端人工智能推理框架部署在移动智能终端上，通常由模型转换工具和推理框架编译器组成。移动终端人工智能推理框架可以分为通用框架和专用框架，通用框架指能跨平台运行，能在多种芯片平台上运行的人工智能计算平台，如TensorFlow1.itoPaddle1.ite等。专用框架指仅能在指定的部分芯片平台上运行的

7、人工智能计算平台，如SNPE、HiAI等。在测试过程中需要指明使用的移动终端人工智能推理框架。1.1.1.1 换工具转换工具能将输入的推理算法，根据移动终端特点进行剪裁压缩和优化，具有减小模型体积、优化算法操作和参数精度等功能。4.1.3.3 基准测试例基准测试例为指定测试场景下，使用神经网络模型推理算法对推理测试集进行推理测试的测试例。4.1.3.4 移动终端人工智能推理框架编译器推理框架编译器主要通过加载神经网络模型并执行推断计算，向上能支持转换工具优化过的神经网络模型，向下能提供调度和使用包括CPU、GPU、DSP、NPU等人工智能计算所需的硬件资源。4.1.4终端硬件层参与人工智能处理

8、的硬件，包括CPU、GPU、AI硬件加速单元、内存、电池等。4.2 通用测试方法通用测试方法如下：a）移动智能终端初始化，包括屏蔽测试无关的其他应用、后台功能、调整屏幕亮度、记录初始电量等，使得每次测试前终端的运行状态保持一致；b）使用模型优化工具将预训练的模型文件离线转换为移动智能终端上可以直接运行的模型文件，并进行优化；C）将测试例推理集的图像或视频资源进行缩放、通道转换等预处理工作；d）将预处理的测试图像或视频资源输入优化后的模型进行推理测试；e）测试过程中通过软件方式或其他方式记录处理结果，处理时间和硬件性能指标；0计算最终评测结果。4.3 性能指标监测性能指标包括检测人工智能推断计算

9、性能的模型性能指标和硬件性能指标。模型性能指标参见第5章内容。硬件性能指标为通用测试指标包括功耗、内存等，具体为：a）功耗测试应计算每亳焦耳能量消耗下最大能处理的图片张数（帧数）；b）内存测试为测试过程中占用的内存的平均值。YD/T451520235图像处理测试方法5.1 图像分类5.1.1 推理测试根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。5.1.2 推理集要求推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括如下图片集:a)CIFAR-100;b)Caltech_256;c)ImageNet.进行基准测试时，应从公开数据集的测试集

10、中随机抽取100oO张图片。5.1.3 评测模型评测模型可包括下表所列个或多个深度学习模型:a)Inceptionv3;b)ResNet50;c)MobileNetV2。5.1.4 测试方法图像分类测试方法如下：a)加载数据集中的图片到终端内存，并完成图像缩放、通道转换等预处理工作;b)评测软件记录本次图片推理前的时间戳；c)将内存中预处理后的数据输入推理模型；d)记录模型输出结果和该时刻的时间戳；e)重复步骤a)d),直到数据集所有图片完成测试、输出记录、计算指标；D测试需要使用浮点型精度或整型精度的模型分别进行测试。5.1.5 测试指标图像分类测试指标如下:a)TOPI准确率(VPopl)

11、o在一次推理结果分类排序中，只有当概率最高的结果为正确分类，本次推理结果才能判定为正确，统计所有图片的推理结果，用正确推理图片数量除以图片总数，得到TOPI准确率。mTPlyFNlMlOOH式中：TPl一推理结果中，Topl分类正确的图片数量;FNl推理结果中，Topl分类不正确的图片数量。b)TOP5准确率(VTOP5)。在一次推理结果分类排序中，概率排名前五的结果中包含正确的分类，本次推理结果判定为正确，统计所有图片的推理结果，用正确推理图片数量除以图片总数，得到ToP5准确率。TPSVTop5m100%TPKFNS式中：Top5分类正确的图片数量;TP5推理结果中，FN5推理结果中，c)

12、单张图片推理时间(InfeICnCeT单位：毫秒)。记录一组图片推理总耗时，计算出单张图片平均推理时间。InferenceTime=N式中：TN组图片推理总耗时；N该组图片数量。d)可选测试尾部延迟90分位耗时(Tp90,Taillatencyat90thPerCentiles,单位：亳秒)。记录一组图片(即数据集随机抽取的100OO张图片)每次推理的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。1)将N次采集的延迟数据按照升序排序，得到如下序列：T1,T2,T3,.,Txo2)计算P=90分位在序列中的前、后位置m和m+l,其中m的计算如下所示。p(-D-1(6)I

13、(M)m=l3)计算TP90,即90分位尾延时。TP90=Tm+(Tm+-T)(l-m)5.2人脸识别5.2.1推理集要求本文件人脸照片进行特征提取和比对，并根据终端的平均处理时长，量化移动终端的性能。推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括如下图片集。a)1.abeledFacesintheWildHome(1.FW);b)MegaFace;c)PubFig:Pub!icFiguresFaceDatabase;(I)Colorferet进行基准测试时，应从公开数据集的测试集中随机抽取100Oo组，选取对象按照不同年龄段和不同性别两个维度选取，至少包括男性儿童

14、、女性儿童、男性成人、女性成人、男性老人、女性老人。YD/T451520235. 2.2评测模型评测模型包括facenet深度学习模型。6. 2.3测试方法人脸识别测试方法如下所示。a）选取符合5.2.1.1中要求的推理集作为测试样例，建立对应的文件列表；b）将文件列表送入对比识别算法程序，开始执行程序；c）从推理算法程序读取文件列表时开始计时，记录200组图片对比完成所需要的时间和对比结果；d）与数据库中的图像关系对比，计算测试样例的正确通过率、错误接受率。统计错误率，错误接受率为百万分之一、千分之一、万分之一处的正确通过率；e）测试需要使用浮点型精度或整型精度的模型分别进行测试。7. 2.

15、4测试指标人脸识别测试指标如下所示。a）正确通过率（PaSSRate,PR）在真实的验证过程中（正确人脸特征）同一个人的样本被判断为同一个人的比对次数占总比对次数的比例。TP式中：TP同一个人的样本对被判断为同一个人的比对次数；EN同一个人的样本对被判断为不同人的比对次数。(8)b）错误接受率（FaISeAcceptanceRate,FAR）在冒充攻击尝试（错误人脸特征）中被错误接受的比例。XlOOSTNAFP式中：FP不同人的样本对被判为同一个人的比对次数；TN不同人的样本对被判为不同人的比对次数。C）单张图片推理时间（InferenCeTime,单位：亳秒）。记录200组图片推理总耗时，计

16、算出单张图片平均推理时间。.r(FfTNIfwCTcnccnfc-Ar式中：TN组图片推理总耗时；N该组图片数量。d）可选测试尾部延迟90分位耗时（TP90,单位：毫秒）。记录一组图片（即数据集随机抽取的10000张图片）每次推理的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。1 ）将N次采集的延迟数据按照升序排序，得到如下序列：T15T2,T3,Tx2）计算P=90分位在序列中的前、后位置m和m+l,其中m的计算如下所示。P1do）100m=l（11）3）计算TP90,即90分位尾延时：TP90=Tm+（Tn+1-Tm）（l-m）（12）5.3目标语义分割5.3.1

17、推理测试图像语义分割（ImageSemanticSegmentation）融合了传统的图像分割和目标识别两个任务，将图像分割成一组具有一定语义含义的块，并识别出每个分割块的类别，最终得到一幅具有逐像素语义标注的图像。5.3.2推理集要求推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括图集：PSCA1.VOC20l2o进行基准测试时，应从公开数据集的测试集中随机抽取100O张，语义分割类别见表I。表1语义分割类别序号父类子类1人(Person)人(person)2动物(Animal)鸟(bird)3动物(Animal猫（Cat）4动物(Animal牛(cow)5动物(A

18、nimal狗(dog)6动物(Animal马(horse)7动物(Animal羊(sheep)8交通工具（VehiCle飞机(aeroplane)9交通工具（VehiCle）自行车（bicycle）10交通工具（VehiCle）船(boat)11交通工具（VehiCIe巴士（bus）12交通工具（VehiCle）车(car)13交通工具（VehiCle）摩托车(motorbike)14交通工具（VehiCIe火车（train）15室内家具（IndoOr瓶子(bottle)16室内家具（IndOOr椅子(chair)表1语义分割类别（续）序号父类子类17室内家具（Indoor）餐桌(dining

19、table)18室内家具（IndOOr盆栽(Pottedplant)19室内家具（IndoOr沙发(sofa)20室内家具（IndOor）电视/监视器（tv/monitor）5. 3.3评测模型评测模型可包括下表所列一个或多个深度学习模型：a）unet;b）deeplabv3o6. 3.4测试方法使用训练好的神经网络算法对推理集图片进行语义分割。a）测试过程记录每个数据的推导时间（入口和出口时间差）；b）交并比IoU（InIerSeCIionoverUnion）计算方法：D分别加载标注图和结果图；2）根据标注的对象颜色和结果图中对象颜色，统计颜色吻合的像素点；3）根据标注对象颜色和结果图对象颜

20、色，统计色块像素；4）根据统计结果计算IoU;5）其他分类范围也用相同的方式分别计算IoU。C）测试需要使用浮点型精度或整型精度的模型分别进行测试。5. 3.5测试指标目标语义分割测试指标如下所示。a）分割类别：支持分割的对象类别，记录识别出超出推理集要求的种类个数和少于推理集要求的种类个数之和。b）测试集的平均IOU（IIUerSeCliOnoverUnion）（记录一组图片推理结果的平均交并比，交并比IOU为测试图片存在的对象的预测区域和实际区域之间的相似性。HoUqgIoU）（13）式中：IoU交集/并集。c）单张图片推理时间（InferenCeTime,单位：毫秒）。记录一组图片推理总

21、耗时，计算出单张图片平均推理时间。InferenceTime（14）N式中：TN组图片推理总耗时；N该组图片数量。d）可选测试尾部延迟90分位耗时（Tp90,单位：毫秒）。记录一组图片（即数据集随机抽取的100O张图片）每次推理的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。1 ）将N次采集的延迟数据按照升序排序，得到如下序列：T1J2,T3,.,Ty02）计算P=90分位在序列中的前、后位置11口m+l,其中m的计算如下所示。p/-（JV-Dx-!（15）lm=l（16）3）计算TP90,即90分位尾延时。TP90=Tm+（Tm+i-Tm）（I-m）（17）5.4图

22、片超分辨率5.4.1推理集要求本文件中图片超分辨率指由一幅低分辨率图像或图像序列恢复出高分辨率图像。推理集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集包括如下图片集，图片超分辨率推理集要求见表2。表2图片超分辨率推理集要求序号推理集名称种类1BSDS300动物、建筑、食物、风景、人物、植物等2BSD500动物、建筑、食物、风景、人物、植物等3DIV2K环境、植物、动物、手工制品、人物、风景等4General-100动物、日用品、食物、人物、植物、地质等51.20动物、建筑、风景、人物、植物等6Manga109漫画7OutdoorScene动物、建筑、草、山、植物、天空、水8

23、PIRM环境、植物、自然风景、人物等9Set5小孩、鸟、蝴蝶、头、女人10SetU人类、动物、昆虫、花、蔬菜、漫画等11T91车、花、水果、人脸等12UrbanlOO建筑、城市、结构等进行基准测试时，应从公开数据集的测试集中随机抽取100OO张图片。5.4.2测试模型评测模型可包括下表所列个或多个深度学习模型:a）SRCNN;b）vdsro5.4.3测试方法图片超分辨率测试方法如卜丁a）依据具体的使用场景先将推断集图片压缩，然后使用训练好的神经网络算法对压缩图片进行超分放大；b）测试过程记录每个数据的推导时间（入口和出口时间差）；c）使用超分放大图片和原始图片质量计算评测指标；d）测试需要使用

24、浮点型精度或整型精度的模型分别进行测试。5. 4.4测试指标图片超分辨率测试指标如下所示。a）PSNR（峰值信噪比）值W-10(18)(19)式中：（lXy（I）图像,y像素值；1.像素值的动态范围，一般取255;N图像x,y的像素数（x,y分辨率相同）。b)SSIM（结构相似度）值(20)SSlM(x9y)式中:用来维持稳定的常数，1.是像素值的动态范围，一般取H2,Hy图像X,y的均值;*o?一图像x,y的方差;o图像x,y的协方差；q=（k1.）2,C2=（k71.）2-255;k1=O.Ol,k2=0.030c）单张图片推理时间（InferenCeTime,单位：毫秒）。记录一组图片推

25、理总耗时，计算出单张图片平均推理时间：InferenceTin（2DN式中：TN组图片推理总耗时；N该组图片数量。d）可选测试尾部延迟90分位耗时（Tp90,单位：亳秒）。记录一组图片（即数据集随机抽取的100Oo张图片）每次推理的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。1 ）将N次采集的延迟数据按照升序排序，得到如下序列：T1,T2,T3,.,Tyo2）计算P=90分位在序列中的前、后位置m和m+l,其中m的计算如下所示。/=（JV-I）X-1（22）IMm=l（23）3）计算TP90,即90分位尾延时。TP90=T-（T-T）（l-m）5.5目标检测目标检测

26、，也称为目标提取，是一种基于目标几何和统计特征的图像分割技术。其综合了图像分割和识别，能够提取图片中的对象类别以及具体位置信息。5.5.1推理集要求集应由公开渠道可自由获取的非商业用途图片数据构成，可选的公开数据集CoCO-2017,目标检测推理集类别要求见表3。表3目标检测推理集类别要求序号CoCO类别编号目标类别父类11ApersonAPerson22自行车bicycle交通工具VehiCle33汽车Car交通工具VehiCIe45飞机airplane交通工具VehiCIe57火车train交通工具VChiCle69船boat交通工具VehiCIe710交通信号灯trafficlight室

27、外OUtdOor811消防栓firehydran室外OUtdoOr912路标Streetsign室外OUtdoOr1013停止标识StoPsigr室外OUtdOOr1116鸟bird动物animal3目标检测推理集类别要求（续）序号CoCo类别编号目标类别父类1217猫Cat动物animal1318狗dog动物anima1419马horse动物animal1520羊SheeP动物animal1626帽子hat动物accessory1727登山包backpack配件accessory1828雨伞UmbreIla配件accessory1929鞋子ShOe配件accessory2030眼镜eyegl

28、asses配件accessory2131手包handbag配件accessory2235滑雪SkiS运动SPOrtS2337运动球SPOrISbal1运动SPOrtS2438风筝kite运动SPOrtS2544瓶子bottle厨房kitchen2645盘子Plate厨房kitchen2747杯子CUP厨房kitchen2850勺子SPoon厨房kitchen2951碗bowl厨房kitchen3052香蕉banana食物food3153苹果apple食物food3259披萨PiZZa食物food3361蛋糕Cake食物food3462椅子Chair家具furmiture3563长椅COUeh家

29、具furniture3664盆栽POttedplant家具furniture3765床bed家具furniture3866镜子mirror家具furniture3968窗户WindoW家具furmiture4069桌子DeSk家具furmiture4171门Door家具furniture4272电视TV电子产品elecIrOniC4373第记本电脑IaPtoP电子产品electronic4474鼠标mouse电子产品electronic4576健盘keyboard电子产品electronic表3目标检测推理集类别要求（续）序号CoCO类别编号目标类别父类4677移动电话CeIlphone电子产

30、品electronic4782冰箱refrigerator家电appliance4884书book室内indoor4985闹钟CIOCk室内indoor5089吹风机hairdrier室内indoor进行基准测试时，应从公开数据集的测试集中随机抽取100O张图片，其中选取类别见表3,每类随机选取20张样本图片。5. 5.2评测模型评测模型包括度学习模型：MobiIeNetV2-SSDo6. 5.3测试方法目标检测测试方法如下：a）加载数据集中的图片到终端内存，并完成图像缩放、通道转换等预处理工作；b）评测软件记录本批次图片推理前的时间戳；c）将内存中预处理后的数据输入推理模型；d）记录模型输出

31、结果和该时刻的时间戳；e）重复步骤a）d）,直到数据集所有图片完成测试，输出记录，计算指标；D测试需要使用浮点型精度或整型精度的模型分别进行测试。7. 5.4测试指标目标检测测试指标如下：a）单张图片推理时间（InferenCeTime,单位：毫秒）。记录一组图片推理总耗时，计算出单张图片平均推理时间。inferenceTinw（25）式中：TN组图片推理总耗时；N该组图片数量。b）准确度mAP0.5:在IOU阈值为0.5的前提下，在所有类别上的mAP值。1。U=交集/并集（26）c）可选测试尾部延迟90分位耗时（TP90,单位：亳秒）。记录一组图片（即数据集随机抽取的1000张图片）每次推理

32、的耗时，按照耗时从小到大排序，取第90%处的耗时作为尾部延迟90分位耗时。1 ）将N次采集的延迟数据按照升序排序，得到如下序列：T1,T2,T3,.,Txo2)计算P=90分位在序列中的前、后位置m和m+l,其中m的计算如下：P三(jV-I)x-l(27)nn=l(28)3)计算TP90,即90分位尾延时。TP90=T,+(T-T)(l-m)(29)6视频处理测试方法6.1 推理集要求拍摄一段有代表性的3分钟街景视频，确保内容明确、目标丰富。将视频帧进行人工切割和目标标注，以此形成最终视频输入样本。至少包括建筑、汽车、行人、交通指示牌。6.2 测试模型见5.5.2。6.3 测试方法视频目标检测测试方法如下：a)按每帧将视频中的图像取出进行处理；b)其余测试方法参考5.5.3。6.4 测试指标视频目标检测测试指标如下所示。a)每帧处理速度：测试视频中平均每帧的处理时间。b)准确度mAP0.5:在IoU阈值为0.5的前提下，在所有类别上的mAP值。IoU=交集/并集(30)

展开阅读全文