《科技成果信息征集表“科创中国”平台科技成果产业化方案.docx》由会员分享,可在线阅读,更多相关《科技成果信息征集表“科创中国”平台科技成果产业化方案.docx(12页珍藏版)》请在课桌文档上搜索。
1、附件:科技成果信息征集表科创中国平台科技成果产业化方案成果简介本项目突破了远场复杂声学场景下语音交互的声学感知和语义理解关键技术,融合了基于经典阵列信号处理的模型驱动算法和基于深度学习的数据驱动算法,开发出具有自主知识产权的远场声学信息人机交互系统和平台,提高了远场人机交互质量和用户体验,促进了人工智能技术在声学信息交互领域的落地。本项目的推广应用产生了重大的经济效益和社会效益,技术成果在智能音箱、Al数字人红外测温与监管系统、智慧电梯与安全监管平台等多个领域获得成功应用,服务海内外包括中国移动、华为、百度、小米、阿里、腾讯等120家企业,拥有4000多万用户,产生直接经济效益超1.6亿。项目
2、成果应用于冬奥会和冬残奥会、冬奥测试赛、联合国COPI5大会、建党100周年、中国服贸会、中国科博会和中关村论坛等北京市和国家重点项目,为抗击新冠疫情作出了突出贡献,获得工信部突出贡献企业表彰,入选工信部Al助力疫情防控重点物资清单,有广阔的发展和应用前景,潜在经济效益巨大,并在公共安全、疫情防控、金融、教育等国计民生重要领域示范应用。技术亮点声学信息人机交互对人工智能产业发展具有重要战略意义,远场交互是声学信息人机交互产业的创新升级方向。从近场交互到远场交互,噪声、混响、回声等干扰带来了语音识别、语义理解等难题,亟需攻克。本项目面向声学信息人机交互产业落地的重大需求,突破了多项远场语音交互的
3、声学感知和语义理解关键技术,构建了阵列信号处理融合深度学习的先进声学模型和通用语义理解模型,形成了涵盖麦克风阵列、前端声学处理、语音唤醒、语音识另IJ、语义理解、语音合成等技术深度融合的端+云一体化系统,大幅提窗了系统泛化能力和识别精度,促使我国智能产品万物互联现象级产业直接对标超越欧美标杆企业。主要技术创新点:L提出了不同场景下低复杂度稳健的时领域自适应滤波算法,解决了高度依赖双端对讲检测、收敛速度慢等难题,实现了单通道和多通道回声抵消系统应用。2 .提出了基于麦克风阵列噪声消除和盲源分离等方法,建立了带噪语音的特征修复技术,去除了人声及背景噪声干扰,大幅提升了系统的识别性能。3 .提出了抗
4、混响、抗干扰的低复杂度声源定位方法,有效解决了复杂声学环境特别是电梯、家居、会议室等场景的声源定位问题。4 .提出了加权有限状态转换机解码图唤醒算法,实现了多个声学模型深度融合的在线语音识别引擎,提高了系统在各种环境下语音识别、唤醒的性能。5 .提出了基于用户对话交互历史的词汇-领域词库映射算法、领域感知的词向量训练算法,提高了领域识别精度,提升了信息交互的流畅度与准确性。应用前景本项目在国家科技支撑计划等课题支持下,开发出具有自主知识产权的全球领先的远场声学信息人机交互系统,技术成果形成了智能音箱、AI数字人红外测温与监管系统、智慧电梯与安全监管平台等产品在多个领域落地应用,占据了全球70%
5、以上的中文远场智能语音市场。本项目获授权发明专利44项、实用新型专利37项、软件著作权61项,发表论文135篇,参与制定国家标准15项、团体标准15项,产生直接经济效益超1.6亿。本项目促进了人工智能技术的推广应用,产品覆盖家居、会议、军工、医疗、交通等行业,服务120多家企业,拥有4000多万用户,数十亿次人机交互真实场景的规模验证,服务海内外客户包括中国移动、华为、百度、小米、阿里、腾讯等。实现了先进的智能交互体验,有力促进了北京建设具有全球影响力的科技创新中心。本项目产品在抗击新冠疫情期间作出了突出贡献,获得工信部突出贡献企业表彰,入选工信部Al助力疫情防控重点物资清单。团队概括声智是第
6、二批国家级“专精特新”小巨人企业、北京市中关村瞪羚企业、工信部抗疫突出贡献人工智能企业、国家高新和“双软”技术企业、中关村前沿技术和中关村高新企业、北京市知识产权示范和试点企业、人工智能知识产权百强企业、人工智能百强企业、AI最佳雇主企业、AAA信用和纳税A级企业等。声智核心团队以智能听觉技术为特色,建立了声学与人工智能两个核心研发团队,在声学信号处理与深度学习融合研究方面具有深厚积累,形成了以远场声学信息交互技术为核心的全球竞争优势,入选“科创中国”先导技术榜1项,荣获北京市科技进步奖和吴文俊人工智能奖,获得2项中国发明专利优秀奖和3项地区发明专利奖。具体核心人员如下:陈孝良,CEO,研究员
7、,中科院声学所博士,声学和人工智能技术专家。李良斌,CTO,负责核心技术研究,中科院声学所博士,语音与语言理解专家。常乐,CKO,负责知识产权建设,中科院声学所硕士。2017/2018福布斯亚洲30U30精英,2017/2018胡润30X30创业领袖。李智勇,CDO,负责开发框架研发与运营,北京大学硕士,曾任联想资深战略专家,奇虎360战略分析师。古擘,CGO,负责商务合作与市场开拓,北京大学硕士,曾任杜比实验室大客户销售总监。(一)陈孝良陈孝良,工学博士,研究员,男,汉族,出生于1980年6月,曾任中国科学院声学研究所副研究员和信息办主任,上海高等研究院客座副教授。现任北京声智科技有限公司创
8、始人、董事长兼CEO。现担任计算机学会语音对话与听觉专委会常务委员,中国声学学会声频工程分会委员,中国人工智能和大数据专家委员,计算机学会高级会员IEEEACWASA/AES会员。荣获自然科学奖励2项,发表文章35篇,主持或参与标准15项,获得国内外授权发明专利105件。2010年度获得中国科学院院长优秀奖,2017年度获得中关村高端领军人才称号,2020年进入中国商业最具创意人物100榜单。目前研究兴趣主要是结合声学、人工智能和计算机通信等交叉学科的成果和进展,开展多模态和多技能人工智能技术的研究和应用,包括声视频压缩感知、声纹语音识别和多技能语言理解等交叉学科的融合技术研究。目前共主持研究
9、项目5项,曾参加海军某重大项目、中科院重大创新项目、863课题、中国电科院重大项目等数项研究课题。(二)李良斌技术骨干,Al算法团队主管,中科院声学所博士,主要研究方向为语音及语言处理、机器学习算法、以及分布式大数据计算框架。曾任阿里巴巴机器学习平台(PAl)及iDST团队核心开发工程师,所研产品服务于阿里集团广告、搜索、推荐等数十个核心应用。曾参与国家863课题、国家自然科学基金青年基金项目等,发表SCI、El论文2篇,申请专利10项。产生的效益声智科技是国内自主原创远场语音技术的开拓者,作为全球领先的远场智能交互平台提供商,其基于远场声学信息人机交互技术开发的产品及解决方案,己广泛运用于智
10、慧城市、智能家居、智慧金融、智慧安防、智慧金融、智慧医疗、智慧零售、智慧教育、智慧交通等领域,己经过千亿次人机交互真实场景的规模验证,支持智能音箱、智慧电梯、智能耳机、智能屏、机器人、AI虚拟数字人、AI音视频会议、AI语音助理等百余个场景实例,提供高效的人机交互和智能决策能力,实现体现技术创新和管理创新的市场价值。在智能家居领域,累计装机2000多万台产品,系统调用近2亿次,占据全球70%以上中文远场语音交互系统,促使我国在智能音箱这一未来万物互联现象级人口产业直接对标美国亚马逊等企业。服务于小米、百度、阿里、华为、腾讯、中国移动、中国电信、中国联通、奇虎360、万科、宝洁、中央人民广播电台
11、、联想、创维、金蝶、浪潮、国美等数百家国内外知名客户,推动了国内智能家居智能产品的爆发。StrategyAnalytics和Canalys统计数据显示,2019年,全球智能音箱市场达到1.469亿台,较2018年增长70机根据奥维云网(AVC)推总数据,2020年一季度中国智能音箱市场销量为884.4万台,同比增长23.0%;销额为16.7亿元,同比增长21.9%。其中2020年一季度智能音箱市场主要品牌百度、阿里、小米中,小米AT音箱、小爱音箱mini、小爱音箱HD、阿里巴巴天猫精灵魔盒、百度智能音箱均采用该项目麦克风阵列模组及语音识别等技术。在行业应用领域,该技术成果已形成了AT数字人红外
12、测温与监管系统、智慧电梯与安全监管平台、多屏语音搜索与智能调度系统、AI外呼机器人、跟随式智能扩声机器人、智慧办公/医疗屏多数十种行业解决方案。该技术成果凭借在拓展性和架构上的优势,快速实现了测温系统的场景落地,形成了以智能语音为核心的AI数字人红外测温系统,可通过语音实现对话、通话、内容服务和IoT控制,支并且支持多台设备联网组成更大规模在线防疫系统,可广泛应用于闸机、考勤、前台、大厦、机场、车站和港口等公共场所场景。该成果还与疫情期间快速形成了智慧电梯系统,提供完整的AT语音模组开发板,内置针对电梯封闭场景的优化语音算法,简单连接开发即可与电梯系统形成联动,乘客无需触摸按键,即可语音呼叫、
13、控制电梯。AI泛化算法支持乘客使用方言及任意说法语音,呼叫与控制电梯升降楼层,且支持语音播报提醒、免唤醒多轮对话等功能,即使残障人士、老年人也能无障碍使用。转化方式该项目的联合创新和商业化布局使得声智科技迅速在行业内占据领先地位,成为全球最大的远场语音智能技术和平台服务商之一。在声学感知技术方面,项目团队拥有数十年的深耕和积累,面向新兴行业的智能化升级,针对实际应用场景快速升级优化关键技术,收集、存储数据,逐渐形成了极具优势的技术与数据壁垒。并通过制定合理的R&D资源配置体系,使得在人工智能关键源头技术领域可以早布局、早落地,完善远场声学人机信息交互技术产业链上下游协作,形成完整的技术系统与产
14、学研闭环生态链条,面向全球逐步构筑人工智能原创技术核心竞争力,支撑北京国家新一代人工智能创新发展试验区建设,累计带动产业链条经济效益超过百亿元。该项目促进在京科研院所与高科技独角兽企业联合科研攻关卡脖子技术;为小米、百度等北京市行业巨头提供了前沿技术研发支撑,带动北京市众多下游人工智能领域中小企业发展,对加强建设北京市全国科技创新中心作出了突出贡献。人才培养方面,中国科学院声学研究所与声智科技联合成立的“声学与人工智能联合实验室”,培养了一批在多传感器融合、深度学习、大数据、自然语音理解、声学等人工智能和物理声学交叉学科融合的高端技术专业人才。声智科技与百度联合推出的远场语音交互开发板Soun
15、dAT,已与清华大学等高校合作,提供智能硬件课程的教具,培养声学领域和人工智能领域的关键人才。北京建筑大学的“建筑全过程”国家级虚拟仿真实验教学中心,推动研发“厅堂混响时间互动”等建筑环境虚拟互动教学程序共计7项,培养本校学生460人次/年,协助各类线上教学平台教授超2200人次/年,在建筑相关专业教育领域中起到了较广泛的示范作用。“科创中国平台科技成果综合评价报告成果名称远场声学信息人机交互关键技术及其应用分类人工智能匕U屋MA北京市声智科技有限公司联系人潘贝贝电话成果简介本项目突破了远场狂杂声学场景下语音交互的声学感知和语义理解关键技术,融合了基于经典阵列信号处理的模型驱动算法和基于深度学
16、习的数据驱动算法,开发出具有自主知识产权的远场声学信息人机交互系统和平台,提高了远场人机交互质量和用户体验,促进了人工智能技术在声学信息交互领域的落地。本项目的推广应用产生了重大的经济效益和社会效益,技术成果在智能音箱、Al数字人红外测温与监管系统、智慧电梯与安全监管平台等多个领域获得成功应用,服务海内外包括中国移动、华为、百度、小米、阿里、腾讯等120家企业,拥有4000多万用户,产生直接经济效益超1.6亿。项目成果应用于冬奥会和冬残奥会、冬奥测试赛、联合国COPI5大会、建党100周年、中国服贸会、中国科博会和中关村论坛等北京市和国家重点项目,为抗击新冠疫情作出了突出贡献,获得工信部突出贡
17、献企业表彰,入选工信部AT助力疫情防控重点物资清单,有广阔的发展和应用前景,潜在经济效益巨大,并在公共安全、疫情防控、金融、教育等国计民生重要领域示范应用。创新水平关键共性技术O前沿引领技术现代工程技术C)颠覆性技术C)其他C)技术进度新设备或新装置原理样机C)工程样机。中试原型机。产业化新材料或新技术实验室阶段O工程化阶段C)产业化阶段技术成果国际专利口国家专利M专利编号1. 基于回声频谱估计和语音存在概率的立体声回声抵消方法ZL.72. 一种非平稳噪声环境下传声器阵列的语音增强方法ZL.23. 一种用于通信系统中的回声抵消方法ZL.74. 基于磁流体散热的双线圈单动磁体结构的惯性式激振器Z
18、L.75. 一种用于抑制啸叫的扬声器阵列扩声系统及方法ZL.36 .一种波达方向估计方法和装置ZL7 .语音唤醒方法、装置、电子设备及存储介质ZL.98 .在线语音识别引擎及识别方法ZL.89 .基于历史数据及机器学习自适应获取词库领域的方法及系ZL610 .一种智能设备的词向量训练方法及装置L.7国际奖项国家奖项IZI奖项名称北京市科学进步奖吴文俊人工智能科技进步奖中国专利优秀奖产品方向有多个应用方向有一个应用方向。没有应用方向C)无法判断C)市场空间需求前景巨大需求前景较大O需求前景一般C)无法判断C)成本竞争优势明显优势一般。没有优势。无法判断。政策影响政策鼓励政策限制C)政策淘汰O无法
19、判断C)市场周期进入期C)成长期饱和期C)衰退期C)无法判断O转化周期近期可控(1年内)v周期较长(2年内)。很难转化(3年起)。无法判断。科技成果的创新基因评价(不少于150字)陈孝良博士在2016年创建了声智科技,近三年营业收入复合增长率达到244.85%,纳税复合增长率达到316.58%,2021年净利7631万,近两年累计净利超过1千万,成为人工智能行业中的盈利企业。陈孝良博士是声学研究员和人工智能行业专家,主要研究领域是声信号处理、声视频压缩感知、阵列并行计算、声与人工智能融合,在国内较早提出基于GPU的声学信号并行计算研究方向,解决了远场声学信息交互技术在真实场景中的关键问题,推动
20、了远场语音交互技术在机器人和智能音箱的大规模商用。陈孝良博士带队突破了端边云高性能数据汇聚和异构数据融合计算技术,主导了多模态与多技能人工智能开发框架的研发,服务了北京冬奥会和冬残奥会、北京环球影城等国家重大项目,获得15封感谢信,同时支持了北京新冠抗疫和流调等平台,获得18面锦旗。陈孝良博士是中关村高等领军人才,获得中国科学院院长优秀奖、北京市科技进步奖、中国发明专利优秀奖、中国人工智能金雁奖等荣誉,带领公司入选科创中国先导技术榜单,获得吴文俊人工智能奖。陈孝良博士担任计算机学会、声学学会、人工智能学会、北京声学学会等理事和委员,以及北京海淀区工商联副主席等职务。声智是第二批国家级“专精特新
21、”小巨人企业、北京市中关村瞪羚企业、工信部抗疫突出贡献人工智能企业、国家高新和“双软”技术企业、中关村前沿技术和中关村高新企业、北京市知识产权示范和试点企业、人工智能知识产权百强企业、人工智能百强企业、Al最佳雇主企业、AAA信用和纳税A级企业等。声智核心团队以智能听觉技术为特色,建立了声学与人工智能两个核心研发团队,在声学信号处理与深度学习融合研究方面具有深厚积累,形成了以远场声学信息交互技术为核心的全球竞争优势,入选“科创中国”先导技术榜1项,荣获北京市科技进步奖和吴文俊人工智能奖,获得2项中国发明专利优秀奖和3项地区发明专利奖。具体核心人员如下:陈孝良,CEO,研究员,中科院声学所博士,
22、声学和人工智能技术专家。李良斌,CTO,负责核心技术研究,中科院声学所博士,语音与语言理解专家。常乐,CKO,负责知识产权建设,中科院声学所硕士。2017/2018福布斯亚洲30U30精英,2017/2018胡润30X30创业领袖。李智勇,CDO,负责开发框架研发与运营,北京大学硕士,曾任联想资深战略专家,奇虎360战略分析师。古擘,CGO,负责商务合作与市场开拓,北京大学硕士,曾任杜比实验室大客户销售总监。科技成果的装采亮点评价(不少于150字)创新点1:针对单通道和多通道回声抵消的不同应用场景,提出了一系列低复杂度稳健的时域、子带和频域的自适应流波算法。解决了以往的算法高度依赖双端对讲检测
23、、收敛速度慢等难题。在人机交互和语音通信的应用中,回声的存在严重影响了通话质量和人机交互的能力,因此回声抵消是必须要解决的首要问题。尽管回声抵消已经进行了多年的研究,但是现在的人机交互和语音通信的应用场景越来越多,现有的回声抵消算法不能满足这些新的需求和挑战。例如现有的人机交互设备中使用的扬声器体积越来越小,引起了严重的非线性回声;我国家庭和会议室的混响时间都比国际惯例的标准要长,导致现有算法收敛速度慢、复杂度高等新的难题。因此必须针对这些新的场景开发新的回声抵消算法。提出了无需双端对讲检测的变步长频域自适应回声抵消算法。频域自适应漉波算法具有较低的复杂度和较好的收敛性能,己经成为声学回声抵消
24、系统的标准解决方案。已有很多的变步长频域算法被提出来解决收敛速度和稳态失调之间的矛盾,但是这些算法需要双端对讲检测。如果双端对讲检测不准,算法会很快发散,而双端对讲检测是业界的难题,目前没有成熟的解决方案。针对这个问题,提出了无需双端对讲检测的频域自适应算法的最优步长控制策略。所提变步长算法在收敛速度、稳态失调、跟踪速度和对外界干扰的稳健性之间取得了很好的平衡,解决了以往的算法高度依赖双端对讲检测的难题。该方法已经成功的应用在智能音箱、智能机顶盒和智能电梯等场景。提出了新型结构的子带自适应滤波算法,并给出了低复杂度的实现方式。子带自适应滤波算法通过把信号分成不同的子带,每个子带用单独的滤波器更
25、新,从而该算法比全带的自适应算法具有更低的计算复杂度。但传统的子带自适应算法由于受到子带混叠的影响而具有较差的收敛性能。提出了一种新的子带权重控制更新机制,该方法利用子带信号更新全带漉波器系数从而避免了分析滤波器带来的混叠影响。还开发了一系列低复杂度的实现算法。这些工作为新型子带自适应滤波在回声抵消中的应用奠定了基础。相对频域自适应算法,所提的子带自适应算法具有频繁的更新速率,非常适合解决非线性回声严重的小型扬声器设备(如电视机)的回声抵消问题。提出了基于维纳漉波的快速收敛的立体声回声抵消方法。由于立体声信号之间存在很强的互相关,导致立体声回声抵消系统的最优解可能不是唯一的。即使维纳解存在也由
26、于互相关矩阵接近奇异,使得传统的自适应源波算法收敛速度极慢。目前一般采用去相关技术在立体声信号输出至扬声器前进行预处理,但这些去相关技术会导致语音质量的下降,反而降低了语音识别率。我们在国际上首次提出利用语音增强的思路来消除回声,依据扬声器信号与麦克风信号之间的相关性设计了级联的两个权函数估计回声信号频谱。该算法收敛速度快,稳健性好,对近端干扰不敏感,不需要对立体声信号进行非线性预处理从而保证了语音质量,并且克服了传统的自适应滤波算法收敛速度慢的难题。创新点2:提出了基于麦克风阵列噪声消除和独立成分分析盲源分离等方法,建立了单通道带噪语音的特征修复技术,去除了语音交互受到的人声及背景噪声干扰,
27、大幅提升了系统的识别性能。随着智能设备的大量应用,语音系统作为重要的交互接口,语音识别及其前端处理技术变得尤为重要。在语音信号的前端处理中,一个关键的难点是远场目标说话人的语音信号通常受到背景噪声、非目标说话人的语音和后期混响声的干扰。这些干扰信号的存在严重影响语音通信的语音质量和人机交互的语音识别率,因此开发高性能的语音增强方法是前端信号处理的重要环节,也是后端语音识别和自然语音处理成功的关键所在。提出了低复杂度的基于独立成分分析的盲源分离算法。如何从嘈杂的环境中分离出目标语音是一个亟待解决的问题,这也被称为著名的“鸡尾酒会问题”。有效解决这个问题的方法之一是通过盲源分离从仅有的混合观测信号
28、中分离出原始声源。但是独立成分分析方法固有的顺序模糊性会导致频间信号顺序混叠,分离后的信号需要进行顺序调整。针对这个难题,提出一种低复杂度的频域顺序模糊性的排序方法,解决了基于独立成分分析的盲源分离的关键技术问题。该方法首先进行局部排序,采用非迭代的方式对分离信号进行相邻频点排序,为防止错排结果传播,对可信度低的频点参照局部中心点进行顺序调整。新提出的方法计算复杂度要远低于其他排序方法,且随着声源个数的增加,所提算法的计算复杂度降低了一个数量级。所提出方法不仅具有很好的分离性能,还极大地降低了计算复杂度,便于在小型设备进行实现。提出了一种非平稳噪声环境下麦克风阵列的语音增强方法。目前,语音增强
29、技术对于平稳噪声具有较好的效果,但在实际使用环境下,干扰噪声通常是突发非平稳的,在这种情况下,目前大部分的语音增强技术性能有限。针对目前技术的不足,项目组提供一种在非平稳噪声环境下麦克风阵列的语音增强方法。该方法首先根据麦克风阵列的输入信号估计出噪声参考信号;而后采用自适应算法初步滤除各通道的输入信号中所含的噪声信号;对各通道中自适应滤波器的输出信号进行分帧加窗,再采用快速傅立叶转换变换至频域;估计背景噪声功率谱,并由此得到当前帧的信噪比;利用各通道之间的相位信息,再进一步根据和值与预定义门限的关系得到有效语音信号存在概;估计出当前帧是有效语音帧的概率;计算出输出信号在各个频率点增益;把处理后
30、的频谱信号通过反傅里叶变换变换到时间域,作为输出信号。实际实验测试结果表明,采用该方法可以有效抑制非平稳噪声干扰。提出了一种单通道带噪语音的特征修复技术。在单通道语音的语音识别及声纹识别应用中,噪声对语音的影响通常难以通过语音增强的方法来处理。本方法创新性的通过带噪语音在时间上接近的相邻帧,对被噪声影响的声学特征进行修复,使其尽可能恢复到干净语音的特征,从而消除噪声的影响。该方法在单通道语音的声纹识别中应用,使噪声环境下的声纹识别错误率大幅下降。创新点3:声源定位旨在使用麦克风阵列捕获到的声源到达各个麦克风的时间延迟信息来确定声源坐标或者方位。项目组提出了抗混响抗干扰噪声的声源定位方法。相比于
31、传统方法,所提出算法可以有效解决复杂环境,特别是强混响场合下的声源定位问题。在语音信号的前端处理中,需要预先估计出说话者所在方位,后续才能根据目标方位,采用语音增强等相关技术提高目标信号。如果声源定位发生错误,有效信号会被当成干扰信号,极大影响后续语音质量和人机交互的语音识别率。对于远场声源定位来说,其最主要的难点在于混响环境和干扰噪声会对声源定位造成极大的影响。解决复杂环境下的声源定位问题也是后端语音识别和NLP处理的关键所在。提出了基于同心多环麦克风阵列结构的强混响环境下声源定位方法。设计了一种最小范数准则设计同心多环阵列的补偿滤波器,利用环谐波展开解耦频率与方位角相关性的特点,把所有频率
32、点的自相关矩阵合并后进行定位,减小混响影响。同时基于信息燧的准则,根据模态域空间相关矩阵特征值分布特性,自动挑选出直达声占主要成份的时频区域。最后根据挑选出的时频点,采用模态域多重信号分类声源定位方法进行声源定位。仿真和实验结果显示,该方法可以更加准确的定位声源位置,尤其适合小空间等强混响条件的场合,如电梯的应用场合。提出了一种强反射条件下的声源方位估计方法。当远场拾音设备距离个反射面较近时,如墙壁、显示屏等,一旦唤醒后由于反射作用存在,会造成波达方向估计失效,指向反射物的方向,这会导致后面的波束形成误将说话人的声音当做噪声消除掉,从而造成设备无法听懂说话人的指令。项目组提出了一种在现有框架下
33、,不增加额外计算量的一种波达方向估计方法,可有效解决反射条件下的波达方向估计问题。在智能语音交互设备在播放音乐的情况下,为了能够对其打断,回声消除系统会一直估计回声通道。而回声通道中会包含有房间的参数信息。当设备距离墙面较近时,回声通道会出现两个不同的峰值。离墙壁越近,回声通道的第二个峰值越高,说明反射越强烈;同时第二个峰值和第一个峰值的距离代表的是麦克风离墙的远近。根据这些信息可以估计出墙面的位置,进而排除这些方位反射声对声源定位的干扰。创新点4:为快速适配各种使用场景,提出了基于智能家居的分布式网络化远场语音采集技术;针对远场唤醒难的问题,提出了加权有限状态转换机解码图的唤醒算法;为了提高
34、语音识别系统的鲁棒性和可扩展性,提出了多个声学模型深度融合的在线语音识别引擎方法。语音识别中的声学模型需要大量标注的语音数据进行训练,语音识别的性能与标注语音数据量直接相关。为了在新场景下快速获取大量远场语音数据,我们首次提出了一种利用同步信号一次录音获取多份远场语音数据方法,为声学模型训练提供更加多样化的数据。远场唤醒是智能产品语音交互的第一步,其性能好坏直接影响用户体验,为了提升唤醒性能,提出了加权有限状态转换机解码图的唤醒算法。随着新场景远场语音数据的增加,声学模型要不断的迭代更新,这导致训练、维护成本增加,为了降低成本,提出了一种新的声学模型结构,可以在不改变原有声学模型的基础上添加新
35、的声学模型实现对新场景新数据的覆盖。提出了基于智能家居的分布式网络化远场语音采集技术。当录音室内存在多台录音设备时,在录音开始以及结束时,利用发声单元分别发出一段同步信号,获取录音数据后,利用匹配滤波器方法可以将多台设备的录音数据进行对齐,从而实现标注一路语音数据同时获得房间多个位置的标注语音。该方法的优点包括:(1)这种录音方法极大提升了远场语音数据量,同时降低了人工标注成本;(2)由于所有录音设备录取的语音都是时间对齐的,因此可以利用声学模型对距离声源最近的录音设备录取的语音进行强制对齐获得状态标签,其他录音设备可以共享这个标签,这样也可以避免噪声、混响等因素造成状态对不齐的情况;(3)这
36、种录音方法也可以用于唤醒词录音,同样可以提升唤醒性能。提出了加权有限状态转换机解码图的唤醒算法。根据语音识别引擎中的解码原理,利用加权有限状态转换机框架,构建唤醒词的解码图,根据每帧语音的前向计算结果,在加权有限状态转换机的解码图中搜索获得最优解码路径与唤醒词解码路径的分数差值作为第一得分,同时唤醒后对整个唤醒词路径进行回溯获得唤醒词每个字得分的几何平均值作为第二得分,通过两个得分来最终确定是否进入唤醒状态。该方法的优点包括:(1)两个得分的机制是从不同的角度对唤醒进行约束,这两种机制可以互补长短,极大提升唤醒率,同时降低误唤醒;(2)在唤醒中引入了语音识别方法,可以将两者进行统一,便于维护,
37、通用性好;(3)采用解码图的方式还可以便捷实现对多个唤醒词的支持,且只需通过更换配置文件就可以实现更改唤醒词的目的。提出了多个声学模型深度融合的在线语音识别引擎方法。为了不断适应新的应用场景,需要使用新获取的语音数据对声学模型进行迭代训练,采用这种方式模型训练、效果回归测试的代价很大。针对这一问题,我们使用一个循环深度神经元网络将多个声学模型进行融合,这样可以仅利用新增数据训练一个新的声学模型,将新模型插入原来的声学模型结构中就可以实现对新场景的覆盖。该方法的优点包括:(1)采语音识别系统的扩展性好,鲁棒性强,识别效果可以对以前场景的完全覆盖;(2)多个声学模型可以进行自由组合,快速实现对某些
38、场景的适配优化;(3)融合后的声学模型较单一声学模型,语音识别率有明显提升。创新点5:针对开发领域对话的应用场景,项目组提出了基于用户的对话历史将词汇映射至领域词库的算法,提高了领域识别的精度;同时提出一种领域感知的词向量训练算法,可以获得更加准确的词向量,有力支撑命名实体识别、情感分析等下游任务。在对话式交互场景中,一个普遍面临的问题是解决词汇的二义性,同一个词汇表达在不同的领域中会有不同的含义解释。尤其在智能家居、个人助理等交互应用中,用户的在交互过程中的输入内容往往比较短,因此难以有效的界定用户具体表述内容。此外随着神经网络语言模型在自然语言处理领域的应用日益广泛,精准的词向量获取成为影
39、响下游自然语言理解任务精度的关键,优秀的词向量算法,需要能够实现对于同领域相关词汇所表示的细节语义进行区分。因此针对开放领域的交互场景,研究高效的领域词库映射及词向量表达技术,具有重要的研究及应用价值。提出基于用户交互历史的自适应领域词库映射算法。领域词库用于在语义理解过程中,将用户原始文字表达的词汇,映射到具体领域中有实际含义的实体。现有的技术方案通常要求开发者静态指定领域词库,在面对开放域交互场景时缺乏灵活性。针对这个问题,项目组提出了一种自适应的领域词库映射算法。首先对于原始文本进行语义平面的句模分类,找到动核以及与其相关的动元;将动元与用户的历史交互信息进行匹配,选出用户使用最频繁的数
40、个领域词库。基于获得的数个领域词库,采用N-最短路径方法进行句法平面的分词;对数个领域词库对应的句法平面分词结果进行评估,考量词与词之间的关联程度以及最短路径计算结果,取评估分值最高的数据作为最终的领域词库映射结果。该算法在自然语言理解过程中将用户的交互偏好纳入了判决依据,避免了静态指定领域词库的局限性,同时提升了领域识别的准确性。提出一种领域感知的词向量训练方法。词向量是自然语言处理中一组语言建模和特征学习技术的统称,词向量是神经网络语言模型的基础,只有获得准确的词向量表达,才能保障下游的自然语言处理任务的精度。典型的词向量训练方法中,算法被建模为一个分类问题,用当前词汇去预测目标词汇,正确
41、的目标词汇被视作正样本,而负样本往往通过负采样的方式进行获取。现有的负采样算法是将所有的语料进行综合统计,并按照词频的分布情况确定词汇被采样到的概率。在语音交互场景中,用户的语音输入会呈现出明显的领域区分的情况,因此我们可以利用这种领域信息,进一步提升词向量的准确度。具体思路是在选取的负样本的过程中,避开目标词所在的领域,将负采样限定在目标词所在领域的补集内。这个算法避免了同领域内词汇的干扰,使得词向量更精准的反映领域特征,进而提升了下游的命名实体识别、情感分析等自然语言理解任务的效果。项目组自研的对话系统具备优秀的可定制能力,可适配不同行业的应用场景,目前己经在智能家居、智慧电梯、智慧大屏、
42、智能养老等多个领域进行落地应用。科技成果的应用市场评价(不少于150字)该项目的联合创新和商业化布局使得声智科技迅速在行业内占据领先地位,成为全球最大的远场语音智能技术和平台服务商之一。在声学感知技术方面,项目团队拥有数十年的深耕和积累,面向新兴行业的智能化升级,针对实际应用场景快速升级优化关键技术,收集、存储数据,逐渐形成了极具优势的技术与数据壁垒。并通过制定合理的R&D资源配置体系,使得在人工智能关键源头技术领域可以早布局、早落地,完善远场声学人机信息交互技术产业链上下游协作,形成完整的技术系统与产学研闭环生态链条,面向全球逐步构筑人工智能原创技术核心竞争力,支撑北京国家新一代人工智能创新
43、发展试验区建设,累计带动产业链条经济效益超过百亿元。该项目促进在京科研院所与高科技独角兽企业联合科研攻关卡脖子技术;为小米、百度等北京市行业巨头提供了前沿技术研发支撑,带动北京市众多下游人工智能领域中小企业发展,对加强建设北京市全国科技创新中心作出了突出贡献。人才培养方面,中国科学院声学研究所与声智科技联合成立的“声学与人工智能联合实验室”,培养了一批在多传感器融合、深度学习、大数据、自然语音理解、声学等人工智能和物理声学交叉学科融合的高端技术专业人才。声智科技与百度联合推出的远场语音交互开发板SoundAb已与清华大学等高校合作,提供智能硬件课程的教具,培养声学领域和人工智能领域的关键人才。
44、北京建筑大学的“建筑全过程”国家级虚拟仿真实验教学中心,推动研发“厅堂混响时间互动”等建筑环境虚拟互动教学程序共计7项,培养本校学生460人次/年,协助各类线上教学平台教授超2200人次/年,在建筑相关专业教育领域中起到了较广泛的示范作用。疫情防控方面,搭载项目系统的国内首款AI数字人红外测温与监管系统和智慧电梯与安全监管平台已迅速落地北京、武汉、上海、青岛、深圳等地的新冠肺炎定点医院,以及全国人大机关办公楼、北京东城区政协、中国残联大厦等等海内外近百个城市的办事服务中心、机场、酒店、办公楼宇、区民小区等公共场所,获得工信部突出贡献企业表彰,入选工信部AI助力疫情防控重点物资清单、中关村抗疫新技术新产品新服务清单,并获得人民日报、求是、日本富士电视台、新华社、央视财经、央视中文国际、中新社、中国日报、北京日报、新京报、等百余家海内外权威媒体得到一致好评与广泛关注。评价专家组综合意见咨询专家签字: