2020人工智能技术应用精选合集.docx

上传人:夺命阿水 文档编号:942516 上传时间:2024-01-23 格式:DOCX 页数:96 大小:1.04MB
返回 下载 相关 举报
2020人工智能技术应用精选合集.docx_第1页
第1页 / 共96页
2020人工智能技术应用精选合集.docx_第2页
第2页 / 共96页
2020人工智能技术应用精选合集.docx_第3页
第3页 / 共96页
2020人工智能技术应用精选合集.docx_第4页
第4页 / 共96页
2020人工智能技术应用精选合集.docx_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《2020人工智能技术应用精选合集.docx》由会员分享,可在线阅读,更多相关《2020人工智能技术应用精选合集.docx(96页珍藏版)》请在课桌文档上搜索。

1、2020人工智能技术应用精选合集2018年伊始,万众期待的人工智能学术会议AAAI2018在华人春节前一周正式召开,这也标志着全球学术会议新一年的开启。作为一个已举办32届的成熟会议,AAAI不仅因其理论性与应用性交织的特点被中国计算机学会(CCF)推荐为人工智能A类会议,更凭借高质量的论文录用水准成为国内高校及研究机构乃至全球学者们密切关注的学术会议。AAAI2018拘嫡3808篇投递论文,相较往年提升了47%;而今年的录用论文数共有938篇,录用率与上年持平,约为24.6%o来自中国的论文投递数在今年有了巨大提升,在AAAI2018上共收到1242篇论文投稿,并有785篇论文被录用。录用论

2、文现场报告阿里巴巴在AAAl2018上也收获了11篇录用论文,分别来自DST、业务平台事业部、阿里妈妈事业部、人工智能实验室、云零售事业部,其中有5位作者受邀在主会做Orai形式报告,另有1位作者携两篇论文在主会以Poster形式做报告。论文内容涉及对抗学习、神经网络、提高轻量网络性能的训练框架、聊天机器人、无监督学习框架、极限低比特神经网络等技术方向。目录-FPL:线性时间的约束容忍分类学习算法1基于注意力机制的用户行为建模框架及其在推荐领域的应用9极限低比特神经网络:通过ADMM算法进行极限压缩17一种基于词尾预测的提高英俄翻译质量的方法22火箭发射:一种有效的轻量网络训练框架30句法敏感

3、的实体表示用于神经网络关系抽取39一种利用用户搜索日志进行多任务学习的商品标题压缩方法43基于对抗学习的众包标注用于中文命名实体识别50CoChat:聊天机器人人机协作框架55阿里巴巴AAAl论文COLink:知识图谱实体链接无监督学习框架74层叠描述:用于图像描述的粗略到精细学习83-FPL:线性时间的约束容忍分类学习算法-FPL:Tolerance-ConstrainedLearninginLinearTime摘要许多实际应用需要在满足假阳性率上限约束的前提下学习一个二分类器。对于该问题,现存方法往往通过调整标准分类器的参数,或者引入基于领域知识的不平衡分类损失来达到目的。由于没有显式地将

4、假阳性率上限融合到模型训练中,这类方法的精度往往受到制约。本文提出了一个新的排序-阈值方法-FPL解决这个问题。首先,我们设计了一个新的排序学习方法,其显式地将假阳性率上限值纳入考虑,并且展示了如何高效地在线性时间内求得该排序问题的全局最优解:而后将学到的排序函数转化为一个低假阳性率的分类器。通过理论误差分析以及实验,我们验证了-FPL对比传统方法在性能及精度上的优越性。研究背景在疾病监测,风险决策控制,自动驾驶等高风险的分类任务中,误报正样本与负样本所造成的损失往往是不同的。例如,在高死亡率疾病检测的场景下,遗漏一名潜在病人的风险,要远高于误诊一名正常人。另一方面,两类错误的损失比也很难量化

5、估计。在这种情况下,一个更加合理的学习目标是:我们希望可以在保证分类器假阳性率(即错误地将负样本分类为正样本的概率)低于某个阈值的前提下,最小化其误分正样本的概率。可以看到,由于问题的转换,传统的基于精度(Accuracy),曲线下面积(AUC)等目标的学习算法将不再适用。假阳性率约束下的分类学习,在文献中被称为Neyrnan-Pearson分类问题。现存的代表性方法主要有代价敏感学习(COSt-SenSitiVeIearning),拉格朗H交替优化(LagragianMethod),排序-阈值法(Ranking-Thresholding)等。然而,这些方法通常面临一些问题,限制了其在实际中的

6、使用:1 .需要额外的超参数选择过程,难以较好地匹配指定的假阳性率;2 .排序学习或者交替优化的训练复杂度较高,难以大规模扩展;3 .通过代理函数或者罚函数来近似约束条件,可能导致其无法被满足。因此,如何针对现有方法存在的问题,给出新的解决方案,是本文的研究目标。动机:从约束分类到排序学习考虑经验版本的Neyman-Pearson分类问题,其寻找最优的打分函数f与阈值b,使得在满足假阳性率约束的前提下,最小化正样本的误分概率:minJ2H()b)丁(1)f.bm2-rnz-zj=1J=I我们尝试消除该问题中的约束。首先,我们阐述一个关键的结论:经验Neyman-Pearson分类与如下的排序学

7、习问题是等价的,即它们有相同的最优解f以及最优目标函数值:咿嬴E11(/(靖)7(/.)do4:计算g()在,4)处的梯度5:梯度下降,得到M+4+6:投影M+1,0I+1到可行域底上:(tt+lA+)4-11,(t+t+)?:更新计数器:-+1;8:endwhile9:RenimwU 0kJ*OUrBiM01outs,t三0.01ours.Olour*.-PTkC1UOOOI-PTC,I=001-F11(C.UO-IPThC.02图2我们的方法与现存算:法(PTkC)在求解简化版问题时的性能对比(Iog-Iog曲线)阈值选择阈值选择阶段,算法每次将训练集分为两份,一份训练排序函数,另一份用来

8、选取阈值。该过程可以进行多次,以充分利用所有样本,最终的阈值则是多轮阈值的平均。该方法结合了OULOf-bo。ISlraP与软阈值技术分别控制偏差及方差的优点,也适于并行。理论结果收敛率与时间复杂度通过结合加速梯度方法与线性时间投影算法,t-FPL可以确保每次迭代的线性时间消耗以及最优的收敛率。图3将-FPL与一些经典方法进行了对比,可以看到其同时具备最优的训练及验证复杂度。泛化性能保证我们也从理论上给出了-FPL学得模型的泛化误差界,证明了泛化误差以很高的概率被经验误差所上界约束。这给予了我们设法求解排序问题(2)的理论支持。算法训练复杂度交叉验证复杂度T-FPLO(m+n)rfT2)线性T

9、opPiishO(m+n)dT2)线性CS-SVMO(m+njdT)二次SVcO(tlogrn+nlogtt+GH+n)d)T)线性BipartiteO(m+n)d十(/十n)log(m+n)T)线性RankingOnnd+HHilog(r)/VT)图3不同算法的训练更杂度比较实验结果IwartI20/1504BI8IV27M57rvHMm2225007U:209582930627674:5007(%)5IO0.1U515100.01I5100.05aas1510CSSMIopruxli.526Ml.691.711.109.112.302.303.47.4M.811.TH.920.M5.376

10、.391.748.747.921.920.112.96.99().於3.501.5Oe.520.551.M927.695.656X28.761.85.M2SVMd509.72N/ANN/AN/AMN/ANNANNNNNN/AMA!AMl740112.305too.842.929.391.7.975.Ml.992508.551.645.710.832.8942rJUnk,547.T&.112311.477.862.936.391.747.922.978.508.676.739.841.902图4报告了不同算法优化部分AUC的效果,NA代表该模型的训练无法在一周内完成。可以看到,t-FPL对于不同

11、值,在大部分实验中都具有较好的表现。另外,其相比二分排序算法有明显的性能优势。BSSVMCS1.IC12y50dJ3 breaUaMt*r 259M449. .675),.713 (.121.774).435 (.015; .9G, ,3(M). .606 .615). .385 (.7. tMl.ll (.013, .965).035 (.035, .970), .030 (.0071 Oil) j.li (.oo7.o.m (.007, .011), 9W) (.007, Oil). .989 (;1.207), 7.939 (.!,.2O7k.826 (.l.207).791 (00!t

12、.2(n),.794 (.078, .), .575 (.078, 994),.007 (oo, .ii .900 (.0,.119)1.88! (M)0. 119). .881 (.01l,.G96).7!5 (.0H. .096). .305 (.0M.G96).3Q5 1(.027, .32Th .673 (.078. gK33j (.006, .87.!30 (017. .965). .034 L(M4 .973k .027(.d ito). .89 .(XM. .256). .7M ( 020. .G67),33 (.Q51.7I6),.284 (.0. .209). .791 (.

13、00!1.700).428 (.001,.7 时,.245(.007, .880). 121 (.029. .931).139(.069, .993), .007I H. 3 (.000, .447),.553(.006. .612).358(.013.701) 299CSSVMOOR(.058. .5o3). (X (.0. y2k.318 (.0ii. .955). .451 ( (M6. .974). .02 (.O95t .98 jk .g (.O6, 75), .7i (. 1,.495), .60S (003.GM). .347 ( 006. ,702),.298 (.033.81

14、8). 182 .(M2.33)167JrTFT(a*i5, M).514 (.W0. -6T&). .317 (.0. .W9).!92 (.(M5M4)026 (.09 i. .982), .018 (00-i, 2), .iT3i (008.4M).560 (MG, U).155 (.m0. .(28).072 (.(X)O. .270). .730 (00l.-8ft). .415 (.003. .827.l81 (00n.89!),.109 (.01 l. .974). .028 (.0Mt .99l) .009 (.0d0. .4).7(.003. .6C7). .333 -271

15、,:,173 (必.如174图5比较了不同算法输出的分类器的分类性能。这里选取NP-score作为评价标准,其综合考虑了分类器间的精度差异与违背假阳性率约束的惩罚。可以看到,采用OOB阈值的算法在大部分情况下均可有效地抑制假阳性率在允许范围内。另外,即使采用同样的阈值选择方法,T-FPL也可以获得较代价敏感学习(CS-SVM-00B)更好的精度。总结在高风险分类任务中控制假阳性率是重要的。本文中,我们主要研究在指定的假阳性率容忍度T下学习二分类器。为此,我们提出了一个新的排序学习问题,其显式地最大化将正样本排在前%负样本的质心之上的概率。通过结合加速梯度方法与线性时间投影,该排序问题可以在线性

16、时间内被高效地解决。我们通过选取合适的阈值将学到的排序函数转换为低假阳性率的分类器,并从理论和实验两个角度验证了所提出方法的有效性。基于注意力机制的用户行为建模框架及其在推荐领域的应用一、摘要本文提出一种基于注意力机制的用户异构行为序列的建模框架,并将其应用到推荐场景中。我们将不同种类的用户行为序列进行分组编码,并映射到不同子空间中。我们利用self-attention对行为间的互相影响进行建模。最终我们得到用户的行为表征,下游任务就可以使用基本的注意力模型进行有更具指向性的决策。我们尝试用同一种模型同时预测多种类型的用户行为,使其达到多个单独模型预测单类型行为的效果。另外,由于我们的方法中没

17、有使用RNN1CNN等方法,因此在提高效果的同时,该方法能够有更快的训练速度。二、研究背景一个人是由其所表现出的行为所定义。而对用户精准、深入的研究也往往是很多商业问题的核心。从长期来看,随着人们可被记录的行为种类越来越多,平台方需要有能力通过融合各类不同的用户行为,更好的去理解用户,从而提供更好的个性化服务。对于阿里巴巴来说,以消费者运营为核心理念的全域营销正是一个结合用户全生态行为数据来帮助品牌实现新营销的数据&技术驱动的解决方案。因此,对用户行为的研究就成为了一个非常核心的问题。其中,很大的挑战来自于能否对用户的异构行为数据进行更精细的处理。在这样的背景下,本文提出一个通用的用户表征框架

18、,试图融合不同类型的用户行为序列,并以此框架在推荐任务中进行了效果验证。另外,我们还通过多任务学习的方式,期望能够利用该用户表征实现不同的下游任务。三、相关工作异构行为建模:通常通过手动特征工程来表示用户特征。这些手工特征以聚合类特征或无时序的id特征集合为主。单行为序列建模:用户序列的建模通常会用RNN(LSTM/GRU)或者CNN+Pooling的方式。RNN难以并行,训练和预测时间较长,且LSTM中的InternalMemory无法记住特定的行为记录。CNN也无法保留特定行为特征,且需要较深的层次来建立任意行为间的影响。异构数据表征学习:参考知识图谱和Multi-modal的表征研究工作

19、,但通常都有非常明显的映射监督。而在我们的任务中,异构的行为之间并没有像magecaption这种任务那样明显的映射关系。本文的主要贡献如下:1.尝试设计和实现了一种能够融合用户多种时序行为数据的方法,较为创新的想法在于提出了一种同时考虑异构行为和时序的解决方案,并给出较为简洁的实现方式。2,使用类似Google的self-attention机制去除CNN、LSTM的限制,让网络训练和预测速度变快的同时,效果还可以略有提升。3.此框架便于扩展。可以允许更多不同类型的行为数据接入,同时提供多任务学习的机会,来弥补行为稀疏性。四、ATRank方案介绍整个用户表征的框架包括原始特征层,语义映射层,S

20、elf-Attention层和目标网络。语义映射层能让不同的行为可以在不同的语义空间下进行比较和相互作用。Self-Attention层让单个的行为本身变成考虑到其他行为影响的记录。目标网络则通过VanillaAttention可以准确的找到相关的用户行为进行预测任务。通过TirneEncoding+SelfAttention的思路,我们的实验表明其的确可以替代CNN/RNN来描述序列信息,能使模型的训练和预测速度更快O1 .行为分组某个用户的行为序列可以用一个三元组来描述(动作类型,目标,时间)。我们先将用户不同的行为按照目标实体进行分组,如图中最下方不同颜色group。例如商品行为,优惠券

21、行为,关键字行为等等。动作类型可以是点击/收藏/力11购、领取/使用等等。每个实体都有自己不同的属性,包括实值特征和离散id类特征。动作类型是id类,我们也将时间离散化。三部分相加得到下一层的向量组。即,某行为的编码=自定义目标编码+lookup(离散化时间)+loOkUP(动作类型)。由于实体的信息量不同,因此每一组行为编码的向量长度不一,其实也代表行为所含的信息量有所不同。另外,不同行为之间可能会共享一些参数,例如店铺id,类目id这类特征的lookuptable,这样做能减少一定的稀疏性,同时降低参数总量。分组的主要目的除了说明起来比较方便,还与实现有关。因为变长、异构的处理很难高效的在

22、不分组的情况下实现。并且在后面还可以看到我们的方法实际上并不强制依赖于行为按时间排序。2 .语义空间映射这一层通过将异构行为线性映射到多个语义空间,来实现异构行为之间的同语义交流。例如框架图中想表达的空间是红绿蓝(RGB)构成的原子语义空间,下面的复合色彩(不同类型的用户行为)会投影到各个原子语义空间。在相同语义空间下,这些异构行为的相同语义成分才有了可比性。类似的思路其实也在knowledgegraphrepresentation里也有出现。而在NLP领域,今年也有一些研究表明多语义空间的attention机制可以提升效果。个人认为的一点解释是说,如果不分多语义空间,会发生所谓语义中和的问题

23、。简单的理解是,两个不同种类的行为a,b可能只在某种领域上有相关性,然而当attentionscore是一个全局的标量时,ab在不那么相关的领域上会增大互相影响,而在高度相关的领域上这种影响则会减弱。尽管从实现的角度上来说,这一层就是所有行为编码向一个统一的空间进行映射,映射方法线性非线性都可以,但实际上,对于后面的网络层来说,我们可以看作是将一个大的空间划分为多语义空间,并在每个子空间里进行self-attention操作。因此从解释上来说,我们简单的把这个映射直接描述成对多个子语义空间进行投影。3 .SelfAttention层SelfAttention层的目的实际上是想将用户的每一个行为

24、从一个客观的表征,做成一个用户记忆中的表征。客观的表征是指,比如AB做了同样一件事,这个行为本身的表征可能是相同的。但这个行为在AB的记忆中,可能强度、清晰度是完全不一样的,这是因为AtB的其他行为不同。实际上,观察SOftmax函数可知,某种相似行为做的越多,他们的表征就越会被平均。而带来不一样体验的行为则会更容易保留自己的信息。因此selfattention实际上模拟了一个行为被其他行为影响后的表征。另夕卜,SelfAttention可以有多层。可以看到,一层Self-Attention对应着一阶的行为影响。多层则会考虑多阶的行为影响。这个网络结构借鉴的是google的self-atten

25、tion框架。具体计算方式如下:记S是整个语义层拼接后的输出,Sk是第k个语义空间上的投影,则经过self-attention后第k个语义空间的表征计算公式为:Ak=Softmax(SkWkSt)Ck=AkQeS这里的attentionfunction可以看做是一种bilinear的attention函数。最后的输出则是这些空间向量拼接后再加入一个前馈网络。C=先d(nf(G,C2,C)4 .目标网络目标网络会随着下游任务的不同而定制。本文所涉及的任务是用户行为预测及推荐场景的点击预测的任务,采用的是point-wise的方式进行训练和预测。框架图中灰色的bar代表待预测的任意种类的行为。我们

26、将该行为也通过em-beddingprojection等转换,然后和用户表征产出的行为向量做vanillaattention,.最后Attention向量和目标向量将被送入一个RankingNetworko其他场景强相关的特征可以放在这里。这个网络可以是任意的,可以是wide&deep,deepFM,pnn都行。我们在论文的实验中就是简单的dnn五、离线实验为了比较框架在单行为预测时的效果,我们在amazon购买行为的公开数据集上的实验。训练收敛结果如下图:用户平均AUC如下图:DatasetElectro.Clothe.BPR0.79820.7061Bi-LSTM0.87570.7869Bi

27、-LSTM+Attention0.87690.7835CNN+MaxPoolingArRank0.88040.77860.89210.7905实验结论:在行为预测或推荐任务中,self-attention+timeencoding也能较好的替代cnn+pooling或Istm的编码方式。训练时间上能较cnn/lstm快4倍。效果上也能比其他方法略好一些。CaseStudy为了深究Self-Attention在多空间内的意义,我们在amazondataset上做了一个简单的casestudyo如下图:,*11V*三4VlVM*UlM*Vt从图中我们可以看到,不同的空间所关注的重点很不一样。例如空

28、间I,II,IILVIII中每一行的attention分的趋势类似。这可能是主要体现不同行为总体的影响。另一些空间,例如VII,高分attention趋向于形成稠密的正方形,我们可以看到这其实是因为这些商品属于同样的类目。下图则是vanillaattention在不同语义空间下的得分情况。多任务学习论文中,我们离线收集了阿里电商用户对商品的购买点击收藏加购、优惠券领取、关键字搜索三种行为进行训练,同样的也对这三种不同的行为同时进行预测。其中,用户商品行为记录是全网的,但最终要预测的商品点击行为是店铺内某推荐场景的真实曝光、点击记录。优惠券、关键字的训练和预测都是全网行为。我们分别构造了7种训练

29、模式进行对比。分别是单行为样本预测同类行为(3种),全行为多模型预测单行为(3种),全行为单模型预测全行为(1种)。在最后一种实验设置下,我们将三种预测任务各自切成mini-batch,然后统一进行shuffle并训练。实验结果如下表:PredictTargetItemQueryCouponBi-LSTM0.67790.60190.8500Bi-LSTMAttention0.67540.59990.8413CNN+MaxPooling0.67620.610.8611ATRank-one2one0.67850.61320.8601ATRank-all2one0.68250.62970.8725A

30、TRank-all2all0.67590.61990.8587all2one是三个模型分别预测三个任务,all2a11是单模型预测三个任务,即三个任务共享所有参数,而没有各自独占的部分。因此al!2all与al!2one相比稍低可以理解。我们训练多任务all2all时,将三种不同的预测任务各自batch后进行充分随机的ShUffIe。文中的多任务训练方式还是有很多可以提升的地方,前沿也出现了一些很好的可借鉴的方法,是我们目前正在尝试的方向之一。实验表明,我们的框架可以通过融入更多的行为数据来达到更好的推荐/行为预测的效果。六、总结本文提出一个通用的用户表征框架,来融合不同类型的用户行为序列,并

31、在推荐任务中得到验证。未来,我们希望能结合更多实际的商业场景和更丰富的数据沉淀出灵活、可扩展的用户表征体系,从而更好的理解用户,提供更优质的个性化服务,输出更全面的数据能力。极限低比特神经网络:通过ADMM算法进行极限压缩ExtremelyLowBitNeuralNetwork:SqueezetheLastBitOutwithADMM研究背景近年来,深度学习在人工智能领域取得了重大的突破。在计算机视觉、语音识别等诸多领域,深度神经网络(DNN,DeepNeuralNetwork)均被证明是种极具成效的问题解决方式。如卷积神经网络(CNN,Convolutionalneuralnetwork)在

32、计算机视觉诸多传统问题(分类、检测、分割)都超越了传统方法,循环神经网络(RNN,RecurrentNeuralNetworks)则在时序信号处理,如机器翻译,语音识别等超过传统方法。在利用深度网络解决问题的时候人们常常倾向于设计更为复杂的网络收集更多的数据以期获得更高的性能。但是,随之而来的是模型的复杂度急剧提升,直观的表现是模型的层数越来越深,参数越来越多。这会给深度学习带来两个严重的问题:(1)随着模型参数的增多,模型的大小越来越大,给嵌入式端模型的存储带来了很大的挑战。随着模型的增大,模型inference的时间越来越长,latency越来越大。以上两个问题给深度学习在终端智能设备上的

33、推广带来了很大的挑战。比如,经典的深度卷积网络VGG-16的模型大小达到528M,用户很难接受下载一个如此大的模型到手机或者其他终端设备上。同时,在一般的智能手机上,VGG-16识别一张图像的时间高达3000ms,这个latency对于大多数用户来说也是难以接受的。此外,由于深度网络的计第量很大,运行深度网络的能耗很高,这对于手机等终端设备也是一个巨大的挑战。所提出的算法在这个工作中,我们提出一种基于低比特表示技术的神经网络压缩和加速算法。我们将神经网络的权重表示成离散值,并且离散值的形式为2的耗次方的形式,比如H,-2,-1,0,1,2,4o这样原始32比特的浮点型权重可以被压缩成1-3比特

34、的整形权重,同时,原始的浮点数乘法操作可以被定点数的移位操作所替代。在现代处理器中,定点移位操作的速度和能耗是远远优于浮点数乘法操作的。首先,我们将离散值权重的神经网络训练定义成一个离散约束优化问题。以三值网络为例,其目标函数可以表示为:min/)s.t.WC=-l,0,+ldw更进一步,我们在约束条件中引入一个scale参数。对于三值网络,我们将约束条件写成-a,O1a,a0,这样做并不会增加计第代价,因为在卷积或者全连接层的计算过程中可以先和三值权重-1,0,1)进行矩阵操作,然后对结果进行一个标量scale从优化的角度看,增加这个scale参数可以大大增加约束空间的大小,这有利于算法的收

35、敛。如下图所示,(a)(b)对于三值网络而言,scale参数可以将约束空间从离散的9个点扩增到4条直线。为了求解上述约束优化问题,我们引入ADMM算法。在此之前,我们需要对目标函数的形式做一个等价变换。min/(W)+Zc(G)5 .t.W=G其中Ic为指示函数,如果G符合约束条件,则Ic(G)=O,否则IC(G)为无穷大。该目标函数的增广拉格朗日形式为:ZW,G,)=(W)+c(G)+SIWG+N|2_*|AADMM算法将上述问题分成三个子问题进行求解,即Wk+1:=argminLp(W,Gk,k)wGfc1:=argminLp(VTfc1,G,fc)Gfc1:=k+Wk+1_Gfc1与其它

36、算法不同的是,我们在实数空间和离散空间分别求解,然后通过拉格朗日乘子的更新将两组解联系起来。第一个子问题需要找到一个网络权重最小化zw,g3) = (w) +P-2在实验中我们发现使用常规的梯度下降算法求解这个问题收敛速度很慢。在这里我们使用Extra-gradient算法来对这个问题进行求解。Extra-gradient算法包含两个基本步躲,分别是:W(P):=w-pwLWW(C)-w-cwL(W第二个子问题在离散空间中进行优化。通过简单的数学变换第二个子问题可以写成:minVi-aiQi2QtQis.t.Qi0,l,2,2jvdi该问题可以通过迭代优化的方法进行求解。当a或Q固定时,很容易

37、就可以获得Q和a的解析解。实验结果ImageNet图像识别:我们分别在AleXnet、VGGI6、Resnetl8Res-net50,GoogleNet等五个主流的CNN框架上验证了所提出的算法。实验中我们分别尝试了Binary网络、Ternary网络、-2,-1,0,1,2、-4,-2,-1,0,1,2,4四种形式。在Imagenet_hTop-I和TOP-5准确度结果如下:Alexnet和VGG16:AccuracyBinarj,BWNTernaryTWX2FullPrecisionAlexNctTop-I0.5700.5680.5820.5750.5920.6000.6-Top-5-0.7970.794O.S060.7980.8180.8220.824

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 在线阅读 > 生活休闲


备案号:宁ICP备20000045号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000986号