《强背景噪声环境下语音增强算法的研究及应用毕业论文.docx》由会员分享,可在线阅读,更多相关《强背景噪声环境下语音增强算法的研究及应用毕业论文.docx(100页珍藏版)》请在课桌文档上搜索。
1、密级:内部2年强背景噪声环境下语音增强算法的研究及应用ResearchandApplicationofSpeechEnhancementinStrongNoiseEnvironment(申请清华大学工学硕士学位论文)培养单位:学科:研究生:指导教师:关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在
2、校园网上供校内师生浏览部分内容;(3)根据中华人民共和国学位条例暂行实施办法,向国家图书馆报送可以公开的学位论文。本人保证遵守上述规定。(保密的论文在解密后遵守此规定)作者签名:导师签名:日 期:日期:摘要摘要人们在语音通信过程中不可避免地会受到各种噪声的干扰,影响了通信质量。同时,噪声的存在也使低速率语音编码以及语音识别等语音处理系统的性能下降。语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途径。在各类语音增强技术中,基于短时谱幅度估计的语音增强算法处于主流位置,得到广泛应用。本文针对短时谱幅度估计在低输入信噪比以及非平稳噪声环境下,性能不够理想这一不足加以研究改进,完成稳健的语音
3、增强算法设计和实时实现。根据对短时谱幅度估计算法进行分析,指出了影响其性能的关键技术:噪声统计特性的估计、语音激活检测算法、先验信噪比估计、增益函数的修正等,为算法改进指明了研究方向。首先,提出了一种快速估计噪声统计特性的算法,减小了噪声估计的跟踪延时,在一定程度上改善了噪声过估计的现象,因而能够在低输入信噪比以及非平稳噪声干扰环境下快速准确地跟踪噪声特性。其次,研究了一种基于高斯模型和一致最大势检验的语音激活检测算法,由于检测门限与噪声估计相适应,因而提高了检测性能,尤其在非平稳噪声干扰环境下得到了良好的检测效果。同时,利用语音激活检测算法中傅里叶变换得到的频谱信息,方便地实现了双音多频信号
4、的检测和生成。再次,对先验信噪比估计的反馈因子进行最优化调整,引入与长时统计信息相关的自适应下限,有效地协调了先验信噪比估计的稳定性和快速跟踪能力。同时,利用软判决信息,即有关语音存在的概率信息,修正增益函数表达式中的先验/后验信噪比,有效地消除了“音乐”噪声,使去噪后的语音更加平滑、自然、易于接受。最后,相关算法已用C语言和TMS320C55xDSP汇编语言在PC机和DSP硬件平台上实现。仿真实验和实时测试均表明改进的语音增强算法在不明显损伤语音可懂度的同时,可以有效地抑制背景噪声、提高信噪比,在低输入信噪比和非平稳噪声环境下性能提高尤为显著。关键词:语音增强非平稳噪声短时谱幅度估计噪声估计
5、语音激活检测先验信噪比AbstractInvoicecommunications,speechsignalscanbecontaminatedbyvariousnoisesinevitably,whichaffectsthecommunicationquality.Furthermore,noiseinterferencedegradestheperformanceofspeechprocessingsystems,suchaslowbit-ratevocoderandspeechrecognition.Speechenhancementisaneffectivepreprocessingme
6、thodtoreducethedisturbanceofnoise.Amongthespeechenhancementtechniques,themethodsbasedonShort-TimeSpectralAmplitude(STSA)Cstimationhavebeenwellinvestigatedandbroughtintowideuse.InthisdissertationslotofresearchworkhasbeendonetoimprovetheperformanceofSTSAestimationagainsttheenvironmentsoflowSignal-to-N
7、oiseRatio(SNR)Jnputandnon-stationarynoise.TheproposedrobustapproachofspeechenhancementhasbeenimplementedontheTMS320C55xDSPplatform.AccordingtotheanalysisoftheSTSA-basedspeechenhancementalgorithm,thekeytechniquesareSummarizedJncludingtheestimationofnoisestatisticcharacteristics,voiceactivitydetection
8、(VAD)algorithm,theestimationofaprioriSNR,andthemodificationofgainfunction,etc.Firstly,afastestimationmethodofnoisestatisticcharacteristicsisproposed.Themethoddecreasestheadaptationtimeoftrackingnoise,avoidstheover-estimationphenomenontosomeextent,thuscantrackthenoisecharacteristicswithhigheraccuracy
9、andlesstimeinlowSNRinputandnon-stationarynoiseenvironments.Secondly,avoiceactivitydetectorbasedonGaussianmodelandUniformlyMostPowerful(UMP)Iestisdesigned.Becauseofdetectionthresholdrelatedtothenoiseestimationjhealgorithmprovideshigherdetectionperfomance,especiallyinnon-stationarynoiseenvironments.Fu
10、rthermore7UtilizingthespectralinformationofDFTintheVADalgorithm,thedualtonemultiplefrequency(DTMF)signaldetectorandgeneratorarerealizedconveniently.Thirdly,tobalancethestabilityandthetrackingabilityintheestimationofaprioriSNR,thefeedbackfactorofaprioriSNRestimationisoptimallyadjustedandtheestimation
11、resultislimitedaboveanadaptivethresholdrelatedtolongtimestatisticinfbrmation.Moreover,thesoft-decisionmodifiedgainfunctionisobtainedbyintroducingspeechpresenceprobabilitytoaprioriSNRandaprioriSNR.Thesemethodseffectivelyeliminatethemusica,noiseandmaketheenhancedspeechsmooth,naturalandacceptable.Final
12、ly,ThealgorithmmentionedabovehasbeenimplementedinbothClanguageandassemblerlanguageonthePCandTMS320C55DSPhardwarelatform.Bothsimulationexperimentsandreal-timetestsshowthattheimprovedspeechenhancementalgorithmiseffectiveinsuppressingbackgroundnoiseandincreasingtheSNRwithoutapparentlyimpairingtheintell
13、igibilityofspeech.TheperfomanceissignificantlyenhancedinlowSNRinputandnon-stationarynoiseenvironments.Keywords:speechenhancementnon-stationarynoiseSTSAnoiseestimationvoiceactivitydetectionaprioriSNR目录第1章引言11.1 语音增强课题背景11.2 带噪语音模型21.2.1 语音的主要特性21.2.2 噪声的主要特性31.2.3 人耳的感知特性41.2.4 背景噪声对于语音的影响41.3 语音增强的发
14、展历史51.4 语音增强算法分类51.5 论文研究工作71.6 论文内容组织71.7 本章小结7第2章基于短时谱幅度估计的语音增强算法概述82.1 本章引论82.2 语音增强算法概述82.2.1 自适应噪声对消法82.2.2 谐波增强法92.2.3 基于语音生成模型的语音增强算法102.2.4 基于短时谱幅度估计的语音增强算法102.2.5 其他几种形式的语音增强算法112.3 基于短时谱幅度估计的语音增强算法112.3.1 谱减法的一般形式122.3.2 谱减法的改进形式142.3.3 维纳滤波法152.3.4 MMSE估计法162.4 基于短时谱幅度估计的语音增强算法的关键技术172.5
15、本章小结19第3章噪声统计特性估计的研究203.1 本章引论203.2 基于语音激活检测的噪声统计特性估计203.3 直接形式的噪声统计特性估计213.3.1 简单的直接噪声统计特性估计213.3.2 基于最小统计的噪声统计特性估计223.4 噪声功率谱的快速估计253.4.1 自适应最优短时谱平滑263.4.2 不依赖窗长的最小值搜索283.4.3 引入语音存在概率283.4.4 噪声功率谱更新293.4.5 语音存在概率的准确估计以及噪声功率谱的迭代更新293.4.6 测试结果及结论303.5 本章小结34第4章语音激活检测算法研究354.1 本章引论354.2 传统语音激活检测算法354
16、.2.1 G729AnnexB标准的语音激活检测算法354.2.2 G723.IAnnexA标准的语音激活检测算法374.2.3 GSM标准的语音激活检测算法394.3 基于高斯模型和一致最大势检验的语音激活检测算法404.3.1 基于高斯模型的似然比检测414.3.2 一致最大势检验准则414.3.3 短时谱最优化平滑以及自适应门限平滑434.3.4 拖尾延迟保护444.3.5 基于高斯模型和UMP检验的VAD算法流程454.3.6 测试结果以及结论464.4 双音多频信号的生成与检测484.4.1 双音多频信号的生成494.4.2 双音多频信号的检测504.4.3 测试结果534.5 本章
17、小结55第5章语音增强算法的研究与实现565.1 本章引论565.2 本文语音增强算法流程565.2.1 分帧和加窗575.2.2 先验/后验信噪比估计595.2.3 长时信噪比估计615.2.4 增益函数的计算615.3 语音增强算法评测标准645.3.1 增强语音的主观评测645.3.2 增强语音的客观评测655.4 语音增强算法测试675.4.1 测试环境675.4.2 测试结果675.5 本章小结73第6章基于TMS320C55xDSP硬件平台的实时实现746.1 本章引论746.2 TMS320C55xDSP的体系结构746.2.1 TMS320C55x内部结构756.2.2 TMS
18、320C55x总线结构766.2.3 TMS320C55x流水线操作776.3 语音增强算法的DSP实现和优化786.3.1 C代码定点化786.3.2 TMS320C55x汇编程序编程796.3.3 算法在TMS320C55xDSP上的资源消耗826.4 本章小结83第7章结论与展望847.1 结论847.2 展望85参考文献86致谢89个人简历、在学期间发表的学术论文与研究成果90BSDDAMDFTDRTDSPDTFTDTMFFFTFIRIDFTIFFTIIRKLTLPCLSFMMSEMOSNMSESDSegSNRSNRSSSTSAUMPVADVLSI主要符号对照表巴克谱距离(BarkSp
19、ectrumDistance)判断满意度测试(DiagnosticAcceptabilityMeasure)离散傅立叶变换(DiSCret6FourierTransform)诊断押韵测试BiagnosticRhymeTest)数字信号处理(DigitalSignalProcessing)序列傅立叶变换(DiSCreteTimeFourierTransform)双音多频UalToneMultipleFrequency)快速傅立叶变换(FaStFourierTransform)有限冲激响应(FiniteImpulseResponse)逆一离散傅立叶变换(InverseDiscreteFourier
20、Transform)逆一快速傅立叶变换(InverseFastFourierTransform)无限冲激响应(InfiniteImpulseResponse)卡一洛变换(KarhUnenLoeveTransform)线形预测系数(LinearPredictionCoefficient)线谱频率(LineSpectralFrequency)最小均方误差(MinimUmMean-SquaredError)平均意见得分(MeanOpinionScore)归一化均方误差(NOITnaliZedMeanSquaredError)谱失真(SpectrumDistortion)分段式信噪比(Segmenta
21、lSignakto-NoiseRatio)信噪比(Signal-to-NoiseRatio)谱减法(SpectralSubtraction)短时谱幅度(Short-TimeSpectralAmplitude)一致最大势(UniformlyMostPow)语音激活检测(VoiceActivityDetection)超大规模集成电路(VeryLargeScaleIntegration)VH第1章引言21世纪的通信是人与人之间、人与机器之间高质量的无缝的信息交换。语言是人类交流的重要手段,它自然方便,准确高效。语音通信也是一种理想的人机通信方式。人们一直梦想着有朝一日可以摆脱键盘或遥控设备的束缚,拥
22、有更为友好、亲切的人机界面,让计算机或家用电器可以听懂人的话语,看懂人的动作,执行人们所希望的任何任务。而语音数字信号处理正是其中一项至关重要的应用技术。应用现代化手段研究语音处理技术,能更有效地产生、传输、存储和获取语音信息,这对促进社会的信息化发展具有十分重要的意义。因此,语音信号处理目前已成为信息科学研究领域中发展最为迅速的的一个分支。语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密,在数字话音通信,声控打印机,自动语音翻译和多媒体信息处理等许多方面都有非常重要的应用。语音数字信号处理包含的内容十分广泛,如
23、包括语音编码、语音识别、语音合成、语音增强等。其中,语音增强是语音数字信号处理系统进入实用阶段的重要环节。1.1 语音增强课题背景人们在语音通信过程中不可避免地会受到各种噪声的干扰,比如,来自周围环境、传输媒介引入的噪声,通信设备内部电噪声以及其它讲话者的干扰等。这些噪声干扰使接收者接收到的语音已非纯净的原始语音信号,而是受噪声污染的带噪语音信号。例如,室内会议电话的交混回响随同语音广播到每个会议地点,影响收听效果。再如在军用车载通信系统中,尤其是坦克车内的通信系统,所处的噪声环境较一般环境更为恶劣,其噪声强度可达到120分贝左右。如此强度的噪声不仅会对通信质量产生严重影响,而且对通信接收者而
24、言也是难以忍受的。同时,环境噪声污染使许多语音处理系统的性能急剧恶化。例如,语音识别已取得重大进展,正在步入实用阶段。但目前的识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低速率语音编码通常采用参数编码,其基础是语音生成模型。当模型参数的提取受到背景噪声的严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,语音增强作为一种预处理手段,不失为解决噪声污染的一种有效途径。目前流行的语音增强处理方法,虽然能够在一定程度上去除背景噪声,提高信噪比,但在低输入信噪比和非平稳噪声干扰的情况下增强效果有限,残留噪声较多,部分弱语音信号
25、会被当作噪声而完全抑制,从而造成语音可懂度的下降。针对上述恶劣情况,设法改善语音增强效果,提高语音质量,改善通信系统性能,使语音增强技术更好地应用于军用和民用产品中。本课题正是在这种背景下展开的,不仅具有理论意义,而且具有很强的实用价值。1.2 带噪语音模型图1.1带噪语音模型噪声假定为加性噪声,且与纯净语音不相关,可以得到如图LI所示的带噪语音模型。这个带噪语音模型将作为本文语音增强分析的基础。语音增强的主要目标是从带噪语音信号中提取尽可能纯净的原始语音。语音增强是以语音特性、噪声特性以及人耳感知特性为理论基础的。本节将分别叙述语音和噪声的主要特性、人耳的感知特性以及背景噪声对语音的影响。1
26、.2.1 语音的主要特性语音的主要特性有:1)语音是一个时变的、非平稳的随机过程。人类发声器官的生理结构,决定了其变化速度是有一定限度的。在较短的一段时间(1030msec)内,人的声带和声道形状具有相对稳定性,可认为表征其特征的参数是不变的,因而语音短时谱分析也具有相对稳定性。语音的这种短时平稳性是语音信号处理的基础。2)语音大体上可以分为清音和浊音两大类。从语音产生机理上看,两者有明显的差异,因而在特征上也有明显的区别。浊音在时域上呈现明显的周期性;频域上呈现共振峰结构,而且能量大部分集中于较低的频段内。清音则完全不同,它没有明显的时域和频域特征,类似于白噪声。在语音增强中,对浊音的增强相
27、对容易,而对清音的增强则是难点。3)作为一个随机过程,语音信号可以用统计特性来描述。语音信号是非平稳、非遍历的随机过程,长时时域统计特性在语音增强中意义不大。语音短时谱的统计特性是时变的,只有分析帧的长度趋于无穷大时,才能近似认为其服从高斯分布。在高斯模型假设下,傅立叶展开系数被认为是独立的高斯随机变量,均值为0,方差时变。这种高斯模型在帧长有限时只是一种近似的描述,在针对宽带噪声污染的语音增强中,这种假设是分析的前提。1.2.2 噪声的主要特性噪声的来源取决于实际的应用环境,因而噪声特性可以说是变化多样的。噪声可以是加性的,也可以是非加性的。对于非加性噪声,有些可以通过相应的变换而转变为加性
28、噪声。例如,乘性噪声(或卷积噪声)可以通过同态变换,而成为加性噪声。又如,某些与信号相关的量化噪声可以通过伪随机噪声扰动的方法变换成为与信号独立的加性噪声。非加性噪声可以通过一定的变换转化为加性噪声,并且课题应用背景下的噪声属于加性噪声,因此这里只讨论加性噪声。加性噪声大致上有:周期性噪声、脉冲噪声、宽带噪声和同声道其它语音的干扰等。1)周期性噪声其特点是具有许多离散的线谱,主要来源于发动机等周期性运转的机械。电器干扰,尤其是电源交流声也会引起周期性噪声。这种周期性噪声可以用梳状滤波器予以抑制。2)脉冲噪声其表现为时域波形中出现的窄脉冲,主要源于爆炸、撞击和放电等。这种脉冲噪声可以在时域中对信
29、号幅度适当设置阈值来判别并加以适当衰减或消除,也可以根据相邻信号的样值,通过内插的方法将脉冲噪声在时域进行平滑。3)宽带噪声其与语音信号在时域和频域上完全重叠,只有在语音间歇期才单独存在,因而消除困难。其来源很多,主要有热噪声、气流噪声以及各种随机噪声。目前的语音增强主要是针对这种噪声的处理。4)同声道语音干扰人耳可以在两人以上的讲话环境中分辨出所需要的声音,这种分辨能力是人脑语音理解机理的一种感知能力。人类的这种分离语音的能力称为“鸡尾酒会效应”,来源于人的双耳的输入效应。但当多个语音叠合在一起,在单信道中传输时,双耳信号因合并而消失。目前针对同声道语音干扰的增强处理还处于研究中。1.2.3
30、 人耳的感知特性语音增强的效果最终取决于人的主观感受。人耳的感知特性对语音增强的研究有着非常重要的作用,了解其机理将有助于语音增强技术的发展。1)人耳对语音的感知是通过语音信号中各频谱分量的幅度获得的,而对各频谱分量的相位则不敏感1;2)人耳对频谱分量强度的感受是频率与能谱的二元函数,响度与频谱幅度的对数近似成正比;3)人耳对频率高低的感受与该频率的对数近似成正比;4)人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用。掩蔽的程度是声音强度与频率的二元函数,对频率临近分量的掩蔽程度大于对频差大的分量的掩蔽;5)语音短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一共振峰更为重要,因此对
31、语音信号进行一定程度的高通滤波不会对可懂度造成影响;6)人耳在两人以上的讲话环境中有能力分辨出需要聆听的声音。其中,第一条感知特性是基于短时谱幅度估计的语音增强算法的基础,利用人耳的掩蔽特性来提高语音增强的性能也成为近来研究的热点2341So1.2.4 背景噪声对于语音的影响背景噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂度降低。强背景噪声会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪声环境中的发声方式,从而改变了语音的特征参数,称为Lombard效应,它对语音识别系统有很大的影响。1.3 语音增强的发展历
32、史在实际需求的推动下,早在上个世纪60年代,语音增强这个研究课题就引起了广泛关注。随着数字信号处理理论的成熟,70年代曾形成一个理论研究高潮,取得了一些基础性成果,并使语音增强发展成为语音信号处理领域的一个重要分支。人们首先提出用梳状滤波器加强周期性的语音而衰减非周期的噪声6,并在自适应噪声抵消的思想下发展了自适应滤波的语音增强方案7。1978年,Lim和OPPOenheim提出了语音增强的维纳滤波算法。1979年,Boll9提出了谱减法来抑制噪声。但由于各种算法的计算量比较大,导致它们的实用性受到影响。进入80年代后,VLSI技术的发展为语音增强的实时处理提供了可能,同时也涌现了大量新的算法
33、,在语音识别中使用的概念和方法也被借鉴到语音增强算法中。1980年,Mcaulay和Malpass1O提出了软判决噪声抑制方法。1984年,Ephraim和MaIaIr提出基于MMSE短时谱幅度估计的语音增强算法。1987年,PaliWaln2)把卡尔曼滤波引入到了语音增强领域。90年代以来,使用统计方法的语音增强算法成为研究的中心。统计方法中最典型的是隐马尔可夫模型(HMM-HiddnenMarkovMdel)方法,它既是语音识别的主要方法,也可以以概率方式将语音增强问题纳入其模型框架13。90年代中后期,移动通信的飞速发展对语音增强的研究提供了现实的动力,新的尝试方法又相继涌现。比如将小波
34、变换14用于语音增强中,或者进行卡一洛变换(KLT)115,利用神经网络6进行语音增强。此外,采用麦克风阵列输入多个带噪混合信号,再通过计算进行滤波也受到很大重视。应用独立元分量分析来进行语音信号盲分离和增强的方法,以及引入人耳听觉掩蔽效应17118的语音增强方法也是目前研究的热点。1.4 语音增强算法分类语音增强是解决噪声污染的有效方法,它的首要目标就是在接收端尽可能地从带噪语音信号中提取纯净的语音信号,改善其质量。语音增强不仅涉及信号检测、波形估计等传统信号处理理论;而且与语音特性、人耳感知特性密切相关;再则,实际应用中噪声的来源及种类也各不相同。所以,语音增强的处理方法具有多样性。因此,
35、要结合语音特性、人耳感知特性及噪声特性,根据实际情况选用合适的语音增强方法。就语音增强算法而言,根据所用的麦克数量可划分为三种形式,分别为基于单麦克、双麦克以及麦克阵的语音增强。基于单麦克的语音增强大致可以分为两类。一类是将语音信号看成是一个高斯自回归模型的输出,并采用迭代算法,从带噪语音信号中估计自回归模型参数,然后利用这些参数构造全极点滤波器进行滤波。这种算法后来有很多发展,如在上述迭代过程中施加有关共振峰的约束,使处理后的信号更具有语音的特点;或者把这类方法与隐马尔可夫方法结合起来,以更好地描述语音的时变特性。此类方法一般运算量比较大,而且当实际的噪声和语音与模型有较大的差距或是提取参数
36、比较困难的时候,容易失效。另一类方法则主要是基于语音短时谱的估计,即设法从带噪语音信号中估计出语音短时谱的每个频率分量。由于人耳对语音短时谱相位的感知不敏感,事实上实际应用中只需设法准确估计出语音的短时谱幅度(ShortTimeSpectralAmplitude,STSA),基于STSA估计的语音增强方法一般都是直接采用带噪语音的相位作为增强语音的相位。此类算法运算量相对较小,适用信噪比范围比较大,并且易于实时处理,因此得到广泛应用,谱减法、维纳滤波法以及MMSE法等方法都属于此类。近些年来,人们又陆续提出了一些基于信号子空间处理以及基于神经网络的语音增强算法。基于双麦克的语音增强主要采用自适
37、应噪声消除技术进行语音增强。如果能在时域或者在频域,直接从带噪语音中将噪声分量减去,则能有效增强带噪语音。噪声对消法就是以此作为出发点,其最大特点是需要采集背景噪声作为参考信号,参考信号准确与否直接决定着噪声对消法的性能。在采集背景噪声时,往往采用自适应滤波技术,以便使参考信号尽可能接近带噪语音中的噪声分量。基于麦克阵的语音增强采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接受设备中的合成信号也会产生相应的差异,再采用独立成分分析技术将各个独立信号分离出来。1.5 论文研究工作基于单麦克的语音增强一直是各种语音增强方法中研究的热点,相关理
38、论也相对成熟。本课题的应用背景,提供的是单麦克,因此本文的研究工作是基于单麦克的语音增强。考虑到具体应用的各种要求,主要是研究基于短时谱幅度估计的语音增强。论文分析了各种语音增强方法的优缺点,并根据课题的需要,利用随机信号处理的方法,研究并实现了基于MMSE短时谱幅度估计的语音增强算法。针对目前流行的语音增强算法在低输入信噪比(OdB以下)和非平稳噪声干扰环境下增强效果有限的问题,论文借鉴国内外提出的相关技术,通过对噪声统计特性估计、语音激活检测、先验信噪比的估计、增益函数修正这几个方面进行改进,提高了短时谱幅度估计的语音增强算法性能,拓宽了语音增强的应用范围。由于课题需要,论文对语音增强算法
39、的实时应用进行了适应性研究。在选定的DSP芯片处理能力有限的情况下,通过定点化和手写DSP汇编优化程序达到了使用较少资源实时实现语音增强算法的目的。1.6 论文内容组织全文共分七章:第1章是引言;第2章是基于短时谱幅度估计的语音增强算法概述;第3章噪声统计特性估计的研究;第4章是语音激活检测算法研究;第5章是语音增强算法的研究与实现;第6章是基于TMS320C55xDSP硬件平台的实时实现;第7章是结论。1.7 本章小结本章首先介绍了语音增强在语音处理系统中的作用,指出了选题背景和选题意义,并给出了加性噪声情况下的带噪语音模型,阐述了与语音增强密切相关的语音和噪声的主要特性、人耳的感知特性以及
40、背景噪声对语音的影响。然后,简要概述了语音增强的发展和分类,并根据课题要求提出了本文的主要研究工作。最后,说明了论文的结构安排。第2章基于短时谱幅度估计的语音增强算法概述2.1本章引论语音增强的目的是针对带噪语音尽可能地消除噪声的影响,提取出纯净的原始语音。但是,由于噪声干扰的随机性,从带噪语音中提取完全纯净的原始语音几乎是不可能的。通常在对低信噪比的带噪语音进行增强时,一些算法可以显著地降低背景噪声,改进语音质量,但是对语音也造成了很大的损伤。因此在研究过程中,通常要根据不同的要求,选用不同算法,设置不同的参数,这就要熟悉语音增强的各种算法。本章就是对语音增强算法的概述。本章剩余章节将按照如
41、下方式组织:2.2节概述语音增强算法;2.3节重点介绍基于短时谱幅度估计的语音增强算法;2.4节总结基于短时谱幅度估计的语音增强算法的关键技术;最后是本章小结。2.2语音增强算法概述由于噪声的特性各异,语音增强的方法也各不相同。40多年来,人们针对加性宽带噪声研究了各种语音增强算法。尽管语音增强在理论上并未完全解决,还待发展,但是某些增强算法已证明是有效果的,如噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法等等。2.2.1自适应噪声对消法1920噪声对消的基本原理是从带噪语音中减去噪声,问题是如何得到噪声的复制品。通常采用两个(或多个)话筒进行处理,一个(或多
42、个)采集带噪语音,另一个(或多个)采集噪声。图2.1给出了双话筒采集的噪声对消法原理框图。采用噪声对消法时,两个话筒之间必须要有相当的间隔度,但采集到的两路信号之间不可避免地会有时间差,因此实时采集到的两路信号中所包含的噪声段是不同的,而且回声以及其它可变衰减特性也将影响所采集噪声的“纯净”性。因而,采集到的噪声必须经过自适应滤波,以得到尽可能接近于带噪语音中的噪声。自适应滤波器通常采用FlR滤波器,其系数可以采用最小均方(LMS)法进行估计。图21双话筒采集的噪声对消法原理框图大量实验表明,在强背景噪声下,使用自适应噪声对消法进行语音增强可以得到很好的消噪效果。如果采集的噪声足够充分,也可以
43、直接在时域上相减。噪声对消法的一个主要缺点是增强后的语音会有“音乐噪声”,这种噪声是频谱相减的遗留产物,由于具有一定的节奏性起伏,听上去类似音乐声。2.2.2谐波增强法口920语音信号的浊音段有明显的周期性,利用这一特点,可以采用自适应梳妆滤波器来提取语音分量,抑制噪声。梳状滤波器可以在时域实现,表达式为:UV(n)-ZC(x(/.J(2-l)U这里,t为基频周期,X为常数(通常不大);X(n)是滤波器输入信号序列;c.为系数,随信号周期而变化。输出信号是输入信号的延时加权和的平均值。当延时与周期一致时,这个平均过程将使周期性分量得到加强,而会使其他非周期性分量或与语音信号周期不同的其他周期性
44、分量受到抑制。显然,上述方法的关键是要准确估计出语音信号的基音周期,这在强背景噪声干扰下有一定的困难。在基音发生变化的过渡段,这种方法会受到严重影响。选择m=l可以减小这种影响,但增强效果下降。M与梳状流波器的带宽成反比。梳状流波器也可以在频域实现。对语音进行傅里叶变换后可以鉴别出需要提取的各次谐波分量,然后经傅里叶反变换恢复为时域信号。梳状滤波不但可增强语音信号,也可以用于抑制各种噪声干扰,包括消除同声道的其他语音的干扰。同时对两个语音进行梳状滤波的主要问题是:存在另一个人说话干扰时,如何跟踪并准确估计出讲话者的基音。2.2.3基于语音生成模型的语音增强算法语音的发声过程可以模型化为激励源作
45、用于一个线性时变滤波器,激励源可以分浊音和清音两类,浊音的激励源为周期与基音相同的周期性脉冲串;而对于清音,激励源为高斯白噪声。时变滤波器则是声道的模型。通常认为声道模型是一个全极点滤波器,滤波器参数可以通过线性预测分析得到。如图2.2所示。但若考虑到鼻腔的共鸣作用,采用零极点模型更为合适。显然,如果能够知道激励参数和声道滤波器的参数,就能利用语音生成模型合成得到“纯净”的语音。这种增强方法称为分析一合成法,关键在于如何从带噪语音中准确地估计语音模型的参数,即激励参数和声道参数。另一种方法则是鉴于激励参数难以准确估计,而只利用声道参数构造滤波器进行滤波处理。基音图2.2语音的全极点生成模型1.
46、im和OPPCnheim采用了MAP准则来估计声道的全极点参数。对于语音平稳随机过程而言,相当于乘了一个零相位的维纳滤波器。主观测量表明它可以减少可感知的噪声从而改善语音的质量,但对语音也造成了一定的损伤,原因是算法中的迭代缺乏明显的收敛准则,且随着迭代次数的增加共振峰带宽变小。Hansen和CIementS(21在上述迭代过程中加入了频谱限制条件,使极点不太靠近单位圆,以防止共振峰带宽过窄,但引起了共振峰位置的较大抖动。2.2.4基于短时谱幅度估计的语音增强算法如前所述,语音是非平稳随机过程,但在1030msec的分析帧内可以近似为平稳的随机过程。如果能从带噪语音的短时谱中估计出“纯净”语音
47、的短时谱,即可达到增强的目的。由于噪声也是随机过程,因此这种估计只能建立在统计模型基础上。人耳感知对语音频谱分量的相位不敏感,因此目前的增强算法主要针对短时谱幅度进行估计。此类算法运算量相对较小,适用信噪比范围比较大,并且易于实时处理,因而得到广泛应用。谱相减法、维纳滤波法以及MMSE法是短时谱估计中的三种行之有效的增强算法,下节将详细介绍这三种算法的原理。2.2.5其他几种形式的语音增强算法除上面介绍的几种语音增强算法外,Ephraim和VanTreeS?21提出了一种基于信号子空间的语音增强算法,其基本思想是把带噪语音信号的矢量空间通过KLT分解为噪声子空间以及信号加噪声的子空间,去除噪声子空间后,在信号加噪声子空间中滤波估计出语音信号。还有基于小波分析14的方法,其基本思想是小波变化把信号在多个尺度上进行了子波分解,而各尺度上分解所得的子波变换系数代表原信号在不同分辨率上的信息,利用信号和随机噪声在不同尺度的特性关系进行去噪处理。近年来,人们正在探索将神经网络、隐马尔可夫模型、人耳听觉掩蔽效应以及多分辨率分析等理论用于语音增强算法。2.3基于短时谱幅度估计的语音增强算法设带噪语音的时域表示:y(t=slM(t)(2-2)其中,sa