《【《音频特征提取综述》2000字】.docx》由会员分享,可在线阅读,更多相关《【《音频特征提取综述》2000字】.docx(6页珍藏版)》请在课桌文档上搜索。
1、音频特征提取综述目录音频特征提取综述13.1特征参数概述1(1)时域特性参数1(2)频域特性参数1(3)倒谱特征参数13.2 特征参数提取13.2.1 时域特征参数13.2.2 频域特征参数23.2.3 倒谱特征参数33.3 特征提取实验33.1 特征参数概述由于语音信号是所有音频信号中应用最广泛、最突出的研窕成果,所以可以将语音信号的各个方面的参数总结归纳为语音的特征参数作为参考。语音的特征参数有时域特征参数、频域特征参数和倒谱特征参数三种,它们是和1。(1)时域特性参数时域参数的共同特点是:短时线性能量和短时平均振幅,短时平均过零率,短时自相关函数等。这些参数都比较容易提取,但识别信号的能
2、力不强,常用于端点检测和语音子帧。(2)领域特性参数频域特征参数不利于复杂信号的处理,但对加性信号的检测和识别有很强的实用价值。短时FU1.iye变换是最常用的频域特征参数,有时在时间域的信号特征,短时FU1.iye变换的使用可以很好的反映。(3)倒谱特征参数Mel频率倒谱系数(MFCC)和线性预测倒谱系数(1.PCC)是两种常用的倒谱特征参数。MFCC为人类听觉增加了美尔频率标度。线性预测系数(线性预测编码)提取线性预测技术的基础上。3.2 特征参数提取3.2.1 时域特征参数设音频的时域信号为经过加窗分帧处理后的第帧信号为w(m),.Mm)可以用下面的公式表达(其中啾是窗函数,N为帧长):
3、W(Jn)=W(Jn)X(JIm)OTV-1(3-1)除了在2.2.2节的短时能量和短时过零率在223节,有两种常用的时域光谱参数,如短时平均幅度、短时自相关。I)短时平均振幅由于短时能量用于计算信号的平方值,所以对信号非常敏感。采用信号幅值代替平板法可以降低灵敏度:=lXn5】)I(3-2)和=O(2)短时自相关用&(八)代表短时自相关函数,其中人为延迟点数,短时自相关吊仆)的定义如下:.V-I-AR,k)=ZX仙)xm+k)bkK(3-3)Bi=O其中,K代表最大延迟点数。对语音信号的分析可以使用短时自相关的性质:如果信号x”(m)具有周期性,且周期为Np,则以(八)也是周期为NP的周期信
4、号:R(八)是偶函数,即兄伏)=&(/);自相关函数R(八)在后0时取得最大值,对于确定性信号,&(O)代表其能量,而对于随机性信号,&(O)代表其平均功率。3.2.2 频域特征参数对音频信号提取频域特征时,通常先用傅里叶变换将时域信号变换到频域:Xk)=*.(MeTY(3.4)JW=O常用的频域特征参数有自带能量比、子带频谱流量、频率中心、带宽和线谱对等,具体内容如下:(1)子带能量比子带能量比是把信号的频域分成多个子带后,统计信号的频谱各自子带所占能量的比例,即:H12Z(八)ISERi=U(3-5)ST2Ik=0(2)子带频谱流量子带频谱流量通过在频域上划分子带后,统计每个子带中相邻频率
5、的累积变化率来计算出频谱流量作为特征,其定义如下:SSF.=Hi-1.Hi1-lXnk+1)-XSk)Iii(3-6)(3)频率中心频谱能量分布的平均点就是频率中心,其公式如下:XAI1.(八)12代二f2A=OAIX,k)I2=0EF(3-7)(4)带宽带宽代表着信号频谱的平均频率宽度,其公式如下:BW=eu-FCyIxn(k)I2=o2A=Orlt-FcyIx,k)I2A=OEF(3-8)(5)线谱对线性预测分析方法有种叫线谱对分析,这种方法和信号谱包络的峰有紧密联系。具体的内容在此不详细描述,最后获得的系数能反映频谱特性。3.2.3 倒谱特征参数Mel频率倒谱系数(MFCC)和线性预测倒
6、谱系数(1.PCC)是两种常用的倒谱特征参数。MFCC为人类听觉增加了美尔频率标度。线性预测系数(线性预测编码)提取线性预测技术的基础上。在本文中,我们使用的MFCC特征,MeI频率规模和实际频率之间的关系如下:(3-9)Mel(/)=2595lg(/+f700)具体的MFCC提取流程步骤如图3-1所示:图3-1MFCC提取流程3.3 特征提取实验根据上述第二建立健全图书馆四的声音来做特征提取的实验,根据脚步声,个门锁开关,声音,声音的声音序列,提取图3-2的三个特点,对短时能量和短时能量的标准方差的短时能量的平均差。根据3-2的结果,发现短时平均过零率和短时能量脉冲宽度比较宽,脉宽窄,可作为
7、区分语音和非语音的依据。图3-2短时能量的均值、短时能量方差和短时能量标准差特征的对比图3-3是三种特征的提取,如短时能量的平均值,方差,短时能量和短时能量的标准偏差。通过观测发现,短时能量均值、短时能量方差和短时能量标准差等三种特征与噪声相似。三特色的脚步声、开关门,敲门的声音特征等不同高度的声音,锁是个流畅的线条,并对短时能量的门声是由低到高,再从高到低,有其自身的特点,因此,利用短时能量所需的平均特征参数。鼻JIn图3-3短时能量的均值、短时能量方差和短时能量标准差特征的对比MFCC参数的提取。通过归化倒谱凸窗、预加重滤波器,每个框架得到MFCC和阶差分MFCC参数等步骤微分系数和参数M
8、FCC参数的计算,与维数组和振幅幅值的尺寸之间的关系。观察发现,对于声音的脚步声,无法提取MFCC参数;而MFCC参数的门开在O,MFeC和MFCC的语音锁虽然连续,但零率锁定MFCC的语音MFCC的语音明显高于语音。因此,MFCC参数也可以用来分类的四种声音。,flUtMMBWfl1.MMBa小Mh/W前.FKT1.EFF5,图34MFCC参数的提取对比通过上述实验和比较结果,我们可以发现,这四种声音可以分为几个方面:1、通过短时平均过零率、短时能量和短时能量导数的趋势,对语音和非语音进行分类,此外,短时平均过零率明显高于其他语音;2、短时能量的平均值以声的脚步声、门的开关声、开锁声音和声音的较高程度,如声音的平滑滑动等特点。3、MFCe参数可以对脚步声、门开关的声音、解锁声音和声音进行很好的区分。