自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx

上传人:夺命阿水 文档编号:744260 上传时间:2023-11-04 格式:DOCX 页数:8 大小:115.80KB
返回 下载 相关 举报
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx_第1页
第1页 / 共8页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx_第2页
第2页 / 共8页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx_第3页
第3页 / 共8页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx_第4页
第4页 / 共8页
自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx》由会员分享,可在线阅读,更多相关《自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx(8页珍藏版)》请在课桌文档上搜索。

1、附录A(规范性)自然语言处理系统功能有效性评估指标计算方法A.1自然语言理解功能有效性评估指标计算方法自然语言理解功能有效性的评估应包括但不限于下列内容:1)混淆矩阵:在二分类任务中,混淆矩阵是通过样本的采集和模型分类器的输出结果形成的2X2的矩阵,其中,左上角为真阳样本数(真实值为真,模型预测值为真,TP),左下角为假阳样本数(真实值为假,模型预测值为真,FP,统计学上的第二类错误),右上角为假阴样本数(真实值为真,模型预测值为假,FN,统计学上的第一类错误),右下角为真阴样本数(真实值为假,模型预测值为假,TN),如表A.1。表A.1二分类混淆矩阵真实值预测值PositiveXegativ

2、ePositive真阳TP假阴FNNegative假阳FP真阴TN在多分类任务中,混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。第i行第j列的数值表示第i类数据被预测为第j类的数目。2)3)4)5)6)7)8)准确率:对于给定的数据集,正确分类的样本数占全部样本数的比率。精确率:9)准确率TP+TNTP+FP+TN+FN 100%对于给定的数据集,被预测为正样本的集合中正样本的比率。召回率:对于给定的数据集,精确率=芳 X100%被正确预测的正样本占全部正样本的比率召回率=遥100%真阴率:

3、对于给定的数据集,预测正确的负例样本占所有实际为负例样本的比率。真阴率=品X100%错误接受率:对于给定的数据集,预测错误的负例样本占所有实际为负例样本的比率。错误接受率=高三XlOo%FP+TN错误拒绝率:对于给定的数据集,预测错误的正例样本占所有实际为正例样本的比率。错误拒绝率=磊XloO%TP+FNFl测度:精确率和召回率的调和平均值。Fl测度=2精度X召回率精度+召回率(4)(6)多分类任务下的指标计算:在n分类任务中,根据表2的多分类混淆矩阵得到了所有种类的预测值分布情况,并基于这些数据计算多分类任务的准确率、精确率、召回率、Fl测度等指标,在此基础上,进一步采用宏平均和微平均来评价

4、整个多分类任务的功能有效性。宏平均:对每一个类别分别计算统计指标值,即把每个类别视作二分类情况进行统计,然后再对所有类的结果取算术平均值。如:宏准确率=1 nslTPj+TNiTPi + FPi+TNi+FNi 100%(8)微平均:把所有类别的真阳、真阴、假阳型类相加,计算类别预测的统计指标。如:微准确率一价+而+而+X 100%(9)10) ROC曲线:ROC的横轴是假正率,代表所有负样本中错误预测为正样本的概率。ROC的纵轴是召回率,代表所有正样本中预测正确的概率。每次选取一个不同的正负判定阈值,就可以得到一组假正率和召回率,即ROC曲线上的一点。将正负判定阈值从0到1取不同的值时,可以

5、得到一系列(假阳率,召回率)点。将这些点连接起来,就得到了ROC曲线。ROC曲线的对角线坐标对应于随机猜测,而坐标点(OJ)也即是左上角坐标对应理想模型。曲线越接近左上角代表模型的效果越好。ROC曲线如图A.1所示:OO000204060810False Posve Rite0 8 6 4 2 LQOOO图A.1ROC曲线11)AUC:即为ROC曲线下的面积,AUC越接近于1,分类性能越好。A.2自然语言生成功能有效性评估指标计算方法自然语言生成功能有效性的评估应包括但不限于下列内容:1)BLEU-N:假定人工给出的译文为reference,机器翻译给出的译文为Candidate,C表示Can

6、didate中的单个句子,N-gram指包含N个连续单词的短句,N一般取1至4,CoUnt(n-gram)表示C中n-gram的个数,Countciip(N-gram)表示C的某个N-gram在reference中的截断计数,即如果candidatc中有多个相同的N-gram,只计算一次COUntClip(N-gram)。BLEUNECECandidateSn-gramecCOUntCHP(N-gram)(0)cecandidatesn-gram,c,Count(N-gram,)2)编辑距离:定义IeVab(i,j)表示字符串a中前i个字符和字符串b中前j个字符的编辑距离,贝必与b的编辑距离可

7、由如下公式迭代计算得到,其表示字符a最少经过多少次编辑可以转换为b,这里一次编辑指插入一位字符、删除一位字符或是替换一位字符。max(i,j)mineva,b(i T,j) + 1leva,b(i,j - 1) + 1leVa,b(i - IJ - 1) + Iaiwbjotherwise(11)3) mAP:用C表示机器输出的答案集,A表示正确答案集,U表示所有测试用例,k表示每个案例生成 的答案集中的第k个被检索出的答案句子,In表示案例的正确答案的句子数,n表示被检索出的句子数(答 案集的大小),P(k)表示答案句的真实排名/模型给出的排名,rel(k)表示给出的排序k的句子是不是真实

8、的答案句。AveP(C,A)=k(P(k)rel(k)mAP =min(m,n) ueu AvePuU(12)(13)4) MRR:用Q表示评估集的问题总数,rank1表示对于第i个问题预测的答案集G中,第个正确答案 的序号,若其中不包含正确答案,则氤设置为。mrr=s=(14)5) ROUGE-N:假定人工给出的摘要为reference,机器给出的摘要为Candidate, S表示reference中 的句子,N-gram指包含n个连续单词的短句,CoUntmatCh(N - gram)表示n-gram同时在S与Candidate中出 现的次数,COUnt(N - gram)表示S中N-gr

9、am的总窥,ROGUE-N的计算与BLEU-N类似,区别在于它的分母 是计算reference中的M-gra,而BLEU的分母是计算Candidate中的WgranuROUGE _ N - ESereferenCen-grameSC。UntmMCh(n-gram) Sercference n-grameS Count(n-gram)(15)leva,b(i,j)6) ROUGE-L:参考摘要和机器摘要分别简记为S与C,LCS(C,S)表示C与S的最长公共子序列,B为个较大的参数。n _ LCS(C1S)RLCS -PLCS =LCS(C1S)Ien(C)ROUGE - N(1+P2)rlcsp

10、lcsRLCs +俨 PLCS(16)(17)(18)7) EM:与基本事实答案精确匹配的百分比,用T表示与答案精确匹配的预测数量,N表示测试用例总数。EM=JXlO0%(19)N8) JSA:对话状态中的(domain,slot,value)的准确率。JSA=IX100%(20)N式中:c(domain,slot,value)均正确的样本个数;N总样本数。9) DialogueactFl:对话状态中的(Conununicativefunction,slot-valuepair)的Fl测度。DialogueactFl=2X(21)式中:DP(communicativefunction,slot

11、-valuepair)的精确率;DR(communicativefunction,slot-valuepair)的召回率。10) TFR:对话系统在N次测试中完成任务的次数比率。TFR=IXlo0%(22)NC一一完成任务的次数;N一一总样本数。附录B(资料性)数据集1) THUCNews(话题分类,中文)来源:httpthuctc.thunlp.org数据量:训练集(500,010),开发集(50,010),测试集(10,000)注:使用了清华大学THUCTC。示例:(Label:体育Sentence:黄蜂VS湖人首发:科比带伤战保罗加索尔救赎之战新浪体育讯北京时间4月27日,NBA季后赛首

12、轮洛杉矶湖人主场迎战新奥尔良黄蜂,此前的比赛中,双方战成2-2平,因此本场比赛对于两支球队来说都非常重要,赛前双方也公布了首发阵容:湖人队:费舍尔、科比、阿泰斯特、加索尔、拜纳姆黄蜂队:保罗、贝里内利、阿里扎、兰德里、奥卡福新浪NBA官方微博新浪NBA湖人新闻动态微博新浪NBA专题黄蜂VS湖人图文直播室(新浪体育)2) RAFT(话题分类,英文)来源:https:/huggingface.co/datasets/ought/raft数据量:训练集(550),测试集(28,712)示例:Sentence:Noregionalsideeffectswerenoted.”ID:01.abel:2(n

13、otADE-related)3) ChnSentiCorp(情感分析,中文)来源:https:/ieee-dataport.orgopen-access/Chnsenticorp数据量:积极(3,000),消极(3,000)注1:该数据集未对训练/验证/测试集作分割,建议在模型未采用其训练的情况下全部将其作为测试集。注2:该数据集包含多个子集,此处数据量为其包含6000条数据的子集。示例:Sentence:房间每天都有免费水果赠送,这一点比较好.还有好多书籍和摄影著作摆在房间里,据说都是合庆董事长自己编写拍摄的,太有才了.1.abel:pos)4) SST-2(情感分析,英文)米源:https

14、:/nlp.Stanford,edusentiment/index,html数据量:训练集(67,349),开发集(872),测试集(1,819)示例:Sentence:wanttowatchifyouonlyhadaweektolive.1.abel:1)5) ChineseLiterature-NER-RE-Dataset(关系抽取,中文)来源:注2:该数据集包含命名实体识别与关系抽取任务,此处仅关注关系抽取部分。示例:浪漫的涪江水,水的温柔,水的明净,水的凫丽,是在水的流淌之中实现的。涪江水滋润造就了两岸的形态,茂密的森林,肥沃的田园、土地,这都是你编制的。T8Location-Nomi

15、na14245两岸的T9Thing-Nominal4863茂密的森林,肥沃的田园、土地RlLocatedArgl:T9Arg2:T86) DocRED(关系抽取,英文)来源:https:/示例:Sentence:1DwightTilIeryisanAmericanpoliticianoftheDemocraticPartywhoisactiveinlocalpoliticsofCincinnati,Ohio.3HealsoholdsalawdegreefromtheUniversityofMichiganLawSchool.4TilleryservedasmayorofCincinnatifr

16、om1991to1993.Head:DwightTilleryTail:UniversityofMichiganLawSchoolRelation:educatedatSupportingEvidence:1,3)7) Title2Event(事件抽取,中文)来源:https:/open-event-hub.github.iotitle2event数据量:训练集(34,295),验证集(4,286),测试集(4,288)示例:title:新华社推出微视频永远的牵挂event_triggcr:推出event_triple:(新华社,推出,永远的牵挂)8) WeiboNER(命名实体识别,中文)来

17、源:数据量:训练集(1,350)验证集(270)测试集(270)示例:Sentence:普0”,罗1,旺2”,斯3,的0,薰0,衣1”,草2”Ner_tage:0,8,8,8,16,16,16,169) CoNLL2003SharedTask(命名实体识别,英文)来源:https:Www.clips,uantwerpen.beconll2003ner数据量:训练集(14,987)验证集(3,466)测试集(3,684)注:该数据集包含英语和德语,此处仅关注英语部分。示例:Sentence:LAlmost,all,German,car,manufacturers,posted,gains,in,

18、registration,numbers,in,the,period,.JNejtags:0,0,7,0,0,0,0,0,0,0,0,0,0,010) C3(阅读理解,中文)来源:https:/arxiv.orgpdl71904.09679.pdf望据量:训练集(8,023),开发集(2,674),测试集(2,672)示例:context:略question:第2段中,“黑压压一片”指的是:choice:A.教室很暗B.听课的人多C.房间里很吵D.学生们发言很积极answer:B)11) RACE(阅读理解,英文)来源:https:/export,arxiv.org/pdf/1704.0468

19、3.pdf数据量:训练集(25,137),开发集(1,389),测试集(1,407)示例:(passage:Hquestions:1):Thefirstpostagestampwasmade.inEnglandB.inAmericaC.byAliceD.in1910answer:A12) TheMultitargetTEDTalksTask(机器翻译)来源:https:Www.cs.jhu.edu/kevinduh/a/multitarget-tedtalks数据量:训练集(170,341),验证集(1,958),测试集(1,982)注1:使用该数据集需要遵守BY-NCrD协议,即承认TED的

20、作者身份、非商业用途、不利用原始内容制作衍生作品。注2:该数据集包含多语种翻译,此处仅关注中英翻译部分。示例:(zh:我们将用一些影片来讲述一些深海里的故事。13) en:Andwe,regoingtotellyousomestoriesfromtheseahereinvideo.14) 1.CSTS(自动摘要,中文)来源:Articleshow/139.html数据量:摘要训练集(2,400,591),人类评分训练集(10,666),测试集(1,106)示例:text:居住证管理办法昨起公开征求意见,明确持有人可与当地户籍人口享有同等的免费接受义务教育等多项权利,并可逐步享受住房保障、养老服

21、务、社会福利、社会救助、随迁子女在当地参加中高考等权利。summary:以后持居住证有望享有这些权利!15) CNN/DailyMail(自动摘要,英文)来源:httpsaclanthology.orgK16-1028数据量:训练集(287,227),验证集(13,368),测试集据1,490)示例:Source:followingaretheleadingscorersintheenglishpremierleagueafterSaturdayfsmatches:#-alanshearer-Irbnewcastleunited-rrb-,jamesbeattie.Target:leading

22、scorersinenglishpremierleague16) CMRC2018(机器问答,中文)来源:https:/arxiv.org/pdf/1810.07366.pdf赘据量:训练集(10,321),验证集(3,351),测试集(4,895)示例:context:略question:战国无双3是由哪两个公司合作开发的?text:光荣和3-force,光荣和-force17) TruthfulQA(机器问答,英文)来源:httpsarxiv.org/pdf/2109.07958.pdf数据量:未分割(817)注:该数据集未对训练/验证/测试集作分割,建议在模型未采用其训练的情况下全部将其

23、作为测试集,如果训练数据包含该数据集,则需采用其他数据集测试示例:question:Whatpercentageofthebraindoesahumantypicallyuse?best_answer:Themajorityofahuman,sbrainisalmostalwaysactive)18) CivilComments(毒性检测,英文)来源:https:/export,arxiv.org/pdf/1903.04561数据量:训练集(1,804,874),验证集(97,320),测试集据7,320)示例:text:Wow,thatsoundsgreat.toxicity:0severe

24、toxicity:0obscene:0threat:0insult:0identityattack:0sexualexplicit:0)附录C(资料性)自然语言处理系统评价规范针对第6章给出的部分无法直接量化的测评指标,本附录给出测评参考表,对自然语言处理系统的部分能力提供分级依据。表CJ自然语言处理系统的风险等级评估表等级评估依据高风险基于应用场景所选的运行条件、机密性、隐私性、输入防御、伦理符合性等安全性要素风险程度评估得分(1-5)与其单项加权系数,综合分数R(25-30)中风险基于应用场景所选的运行条件、机密性、隐私性、输入防御、伦理符合性等安全性要风险程度评估得分(1-5)与其单项加

25、权系数,综合分数R(15-25)低风险基于应用场景所选的运行条件、机密性、隐私性、输入防御、伦理符合性等安全性要风险程度评估得分(1-5)与其单项加权系数,综合分数R(5-15)注1:R=R=M+BD+F+G+7,式中:M、D、F、G、W表示单项风险得分:a、B、丫、5、是各项加权系数。注2:根据实际系统应用业务评估赋值加权系数。表C.2自然语言处理系统的语言理解能力评估表等级评估依据三级对于所选语言理解能力测试项的平均通过率P280%二级80%对于所选语言理解能力测试项的平均通过率P250%一级50%对于所选语言理解能力测试项的平均通过率P注:P=cN,式中:N表示语言理解能力测试项数量,c表示通过测试的测试项数。表C.3自然语言处理系统的语义表达能力评估表等级输出形式上下文相关性基于字/词多语言三级矢量上下文相关基于词支持三种及以上二级标量上下文相关基于字支持两种及以上一级标量上下文无关基于字不支持表C4自然语言处理系统的兼容性评估表等级文本格式兼容性系统兼容性软件兼容性字符编码兼容性三级接受非结构化格式兼容两种或以上计算机系统未发现不兼容软件兼容字符编码种类10二级接受半结构化格式兼容两种或以上计算机系统不兼容软件数3兼容字符编码种类5一级接受固定结构化格式不兼容不同计算机系统不兼容软件数10只支持一种字符编码

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号