第11章多带激励声码器.ppt_课桌文档desk33.com

资源描述

《第11章多带激励声码器.ppt》由会员分享，可在线阅读，更多相关《第11章多带激励声码器.ppt（50页珍藏版）》请在课桌文档上搜索。

1、国家“十一五”规划教材数字语音编码讲议,第11章多带激励声码器11.1概述CELP、MPLPC等：全极点模型、LPC 分析，合成-分析法，听觉加权方均误差准则，闭环确定激励参数。这类混合编码，在 4.816 kbit/s 码率内获得巨大成功。关键技术：是保持了合成语音与原始语音波形的相似性。再降数码率时，合成语音质量迅速下降。LPC 声码器：（清/浊音）二元激励模型，分析-合成法，LPC 分析，清/浊音判别，估计基音周期。SNR 较高时，2.4 kbit/s 及以下码率，语音可懂度相当高。以上编码器，当噪声较大时，因无法准确提取参数，性能严重恶化；其它声码器，如通道声码器、同态声码器等也有同样

2、弱点。,产生原因：二元激励模型过于简化，不符合实际语音的特性。许多语音段，同时含周期性、非周期性分量，过渡音段、有噪浊音段更是如此。当用二元谱来拟合时，合成语音缺乏自然度。1988 年 MIT 林肯实验室提出多带激励（MBE）语音编码，突破二元激励的局限性，对多个频带逐个进行 V/U 判决，故称为多带激励模型。采用合成-分析法，在 2.4 4.8 kbit/s 码率时性能优良。改进方案被国际海事卫星组织采用（INMARSAT-M Voice Codec），码率为 6.4 kbit/s。本章主要内容：MBE 原理，参数提取方法，合成语音的方法。重点介绍 INMARSAT-M Voice Code

3、c 标准的算法。,第11章多带激励声码器11.2多带激励语音模型窗选语音信号为（窗长 2040 ms）：源-系统语音模型理论，语音段是线性系统（声道）对某种激励信号的响应。设系统的单位脉冲响应为，则的 Fourier 变换可表示为：式中Hw(),Ew()hw(n),ew(n)的 Fourier 变换。重建语音信号谱 Xwr()可表示为：式中Hwr()合成滤波器的系统函数；Ewr()合成滤波器的激励信号的 Fourier 变换。两者皆从原始语音信号中分析提取。,清音波形,Hwr()用全极点函数来逼近，相应于 Xwr()的谱包络。MBE 按基音各谐波，将语音分成若干个子频带（如以 3 个相邻的谐波

4、频带为一组进行分带），分别对各子带进行 V/U 判决，激励信号为各子带的和。清音带：用白噪声谱作为激励信号谱；浊音带：用周期性的 Pw()作为激励信号谱。激励信号是周期性信号与非周期性噪声按不同频带混合而成。系统函数 Hwr()的作用是：调整各子带分量的相对幅度和相位，并将 Ew()映射成 Xw()。该模型较符合实际语音的特性，使合成语音谱同原语音谱在频谱精细结构上拟合得更好。若还利用谱的相位信息，则能够合成出高质量的语音。,图11.1：典型的浊音、清音和混合语音段的分析-合成情况。MBE 编码过程涉及三种参数的提取，基音频率；每个子带的谱包络的幅度和相位参数；每个子带的 V/U 判决。图

5、11.2：MBE 语音编/解码器的简化原理图。,(a)浊语音段(b)清语音段(c)混合语音段图11.1语音MBE的分析-合成波形（10 kHz采样，256点Hamming窗）,第11章多带激励声码器11.3多带激励语音分析MBE模型参数的最优提取，计算量大，工程难以实时实现。常用次优算法，分两步完成参数的提取：确定基音频率和每个分带的谱包络参数，用 AbS 法提取；对每个分带进行 V/U 判决。有两种参数提取方案：使下列加权积分值（加权方均谱误差）为最小：应使下列加权积分值达到最小：式中 G()频率加权函数；Xw(),Xwr()原始语音谱和合成语音谱。,差别：方案利用语音谱的模值；方案利用

6、模值和相位，性能优于，但计算复杂，码率有所增加。,INMARSAT-M Voice Codec 采用方案。本节主要内容：11.3.1频域分析11.3.2时域分析11.3.3INMARSAT-M 改进 MBE 模型分析算法,11.3.1频域分析1.基音估计及各次谐波幅度的计算设基音周期为 T0（基音角频率 0=2/T0）。依次假设 0 为各种可能出现的值。对于可能的基音角频率值0，将=-分为若干频带，分界点为：am=(m-0.5)0,bm=(m+0.5)0,m=0,1,(M+1)设每个分带 am,bm 中 Hwr()保持不变，Hwr()=Am，则有：式中总的加权方均谱误差；m 第m子带加权方均

7、谱误差，或,仅考虑幅度谱时,考虑幅度、相位谱时,令或，由上两式可分别解得一组最佳和：或若第 m 次谐波的能量显周期性，则其能量集中在该谐波附近;选周期性 Pw()的作为激励信号 Ewr()，则合成语音谱Xwr()与窗选语音谱 Xw()在第 m 次谐波带内将拟合得很好（m 最小）。若第 m 次谐波的能量显非周期性，则 Xw()在该频带内没有特征性的形状。仍用 Pw()作为激励，m 值将较大。此时，应选噪声为激励。,仅考虑幅度谱时,考虑幅度、相位谱时,分析周期性与非周期性信号激励时的最佳解。浊音频带时，选 Pw()为激励信号，由上页两式得：清音频带时，激励采用理想白噪声（幅度谱=1），则有：,仅

8、考虑幅度谱时，最佳谱幅度,考虑幅度、相位谱时，最佳谱包络。,相位信息无关紧要，在此无需计算 Am。,对于假定基音频率 0 的每一个谐波，计算 Am 或 Am，再求出各次谐波内的最小误差。则整个频带的总的最小误差：每假设一个基音频率 0，计算出对应的 0。显然，正确的基音周期或其倍数上，0 取极小值。搜索 0 的全局最小值对应的 T0=2/0 值可能是正确的基音周期的某个整数倍值。因而，还需要对T0/2、T0/3、处的 0 进行校核，以判断正确的基音周期，从而确定最佳基音周期。最后确定最佳基音周期时，还需要考虑前后帧的情况。一般相邻帧的 T0 值变化不会太大。,2.谐波频带内 V/U 判决第

9、m 子带的归一化误差能量为：采用激励信号 Pw()（谱幅度Am 或谱包络 Am、周期 T0）是第 m 谐波子带的谱拟合误差。令频率加权函数 G()=1，上式化简为：子带判决：可以将相邻的几个谐波频带合并成一个子频带，用上述同样的方法提取Am 或 Am，并进行 V/U 判决。,11.3.2时域分析W()：窗函数 w(n)的 Fourier 变换，0：归一化基音角频率（基音周期 T0，0=2/T0）假设在-频率范围内共 2M 个谐波，Pw()为激励时，有:式中，,令频率加权函数 G()=1，由前面给出的式子得，全带拟合误差：式中，由上式可求出使取极小值的矢量 a 为：再代入上式，结合上页式，得

10、：式中，因此，对于某个选定的 T 值时，计算 min 等价于 max。,注：上标 T 为转置 H 为共轭转置,为了方便，选择窗函数 w(n)，使其满足频域内正交条件：，I 是单位矩阵；相当于时域内满足条件：还要求其 Fourier 变换的泄露足够小，主瓣宽度足够窄（此宽度不应大于基音频率值）。满足上述条件且 w(n)为偶函数时，上页计算式可改写为：注意到 0M=近似成立，且 0T=2，则上式可简化为：式中 T 假定的基音周期；w2(n)x(n)的自相关函数，,由 Parseval 定理，总拟合误差写成：为了去除由于 T 值增加造成的下降，需要对上式修正，以保证真正的基音周期对应的是全局最小值

11、。采用无偏拟合误差公式如下：采用此修正后，归一化总误差能量应写成下列形式：,设窗函数 w(n)长为 2N+1，以原点对称。同时假设在窗长范围内有 L 个假设基音周期，即：则上页式中，uB的求和上下限应作相应的改动，即得到：为粗搜索时确定初始基音周期 TI 所用的拟合误差时域表达。为提高精度，T 值也可取非整数，如 20.5,21,21.5。非整数点上的相关函数可插值计算：实验表明，10 kHz 采样，基音周期的精确可达 0.04 样点。数码率较低时（4.8 kbit/s以下），精确到 1/4 1/8 样点也就满足要求了，这样运算量可以减少很多。,11.3.3 INMARSAT-M 改进 MBE

12、模型分析算法图11.3：INMARSAT-M 改进 MBE 模型算法框图。语音信号：8 kHz 采样，线性 PCM 编码，语音样值的最大值定标范围：214-1，215-1 最小值定标范围：-215，-214需求出改进 MBE 模型参数：基音角频率、V/U判决，子带谱包络参数（仅考虑幅度谱）。,1.高通滤波语音经数字高通滤波器，滤除信号中的直流分量。高通滤波器的截止频率约 10 Hz，传递函数为：2.低通滤波低通滤波器输出的信号按下式计算：低通滤波器是 21 阶 FIR 数字滤波器，其系数值列于表11.1。,3.基音估计基音估计算法：应保持相邻语音帧基音周期的某种连续性。基音跟踪算法：在确定

13、当前帧的基音周期时要考虑相邻的过去帧和将来帧的影响。图11.4：当前帧和前后帧之间的关系。帧长为 20 ms（160 个样点）。基音估计算法分：初始估计、精细估计两步进行。初始估计得到初始基音周期：TI，TI D=21,21.5,114，精度：1/2 采样周期；再由精细估计得出归最终基音周期，精度：1/4 采样周期。两步法可降低计算复杂度和提高鲁棒性。,算法的重要特点：初始估计和精细估计使用不同长度的窗函数。初始估计窗 wI(n)长为 281 个样点；精细估计窗wR(n)长为 221 个样点；皆是对称三角形窗，两窗中点对齐。相邻语音帧之间的重叠量是窗长的函数，重叠量=窗长-帧移动量（160

14、个样点）。wR(n)时，重叠量 61 个样点；wR(n)时，121个样点。(1)基音的初始估计（步骤见图11.5）对每一个可能的基音周期 TD，计算误差函数值 E(T)。然后通过前向与后向基音跟综算法，比较求出的值，最终选择最佳的候选者作为 TI。,计算误差函数根据归一化总误差能量定义，误差函数 E(T)定义为：式中wI(n)归一化三角形窗函数，满足。当 t 为整数值时，自相关函数(t)定义为：当 t 为非整数值时，用线性内插公式计算(t)。基音周期的初始估计 TI 为：采用基音跟踪算法，保证基音周期 TI 的连续性。,后向基音跟踪E-1(T-1)、E-2(T-2)过去两帧对应的误差函数值

15、；因基音周期的连续性，当前帧的基音周期 T 应在 T-1 附近，应满足约束条件：在上式范围内逐个选取 T，并计算相应的 E(T)，使 E(T)最小的 T 就是后向估计 TB，计算后向累计误差 CE(TB)：CE(TB)是后向基音估计的置信度测度。,前向基音跟踪E1(T1)、E2(T2)将来两帧对应的误差函数值；将来两帧的基音周期尚未确定，前向基音跟踪算法必须首先设法确定这些基音周期值。在集合 D 内选定一个 T0，按下面的约束条件选取T1、T2：使E1(T1)+E2(T2)最小的T1、T2表示为，并按下式计算前向累计误差函数 CEF(T0)为：重复上述过程，在规定的范围内逐个选定 T0，计算相

16、应的CEF(T0)，使其最小的 T0 定义为。,为防止倍基音周期，考虑取的可能性。要求，选择一个与其最接近的值代替。再检查是否满足下列三个条件之一、且为最小值的，若有，则前向基音估计；否则。完成前、后向基音跟踪，并求得估计值后，按下列判决规则确定初始基音估计 TI：If CEb(TB)0.48 then TI=TB else if CEb(TB)CEF(TF)then TI=TB else TI=TF 最终的基音估计的精度提高到 1/4 采样周期。,(2)基音的精细估计图11.6：基音精细估计的方框图。精细估计窗 wR(n)：长 221 个样点，归一化三角形窗。由基音初始估计 TI，产生

17、10 个基音精细估计的候选值：将其转换为相应的基音频率 0=2/T0。然后在这 10 个点上进行细搜索，确定基音周期的精细估计。,计算窗选语音和窗函数的离散 Fourier 变换。对窗选语音信号，计算 256 点 DFT：对窗函数,计算 16384 点 DFT：（扩大点数，可保证精度)对每一个假设的 0，求各谐波的最佳谱包络值 Am(0)。选定 0，则在-之间有个 2/0 谐波分量，两个相邻谐波之间含有 2560/2 个语音信号的 DFT 点。对于第 m 次谐波，它的频带下限、上限为：其中，INT x 表示取大于或等于 x 的最小整数。,根据式：因窗选激励 Pw()在频带内与窗函数主瓣包络形状

18、相同，故用 WR()代替 Pw()。这意味着语音改变一个样点，窗改变 64 个样点。因此，最佳用下式计算：计算合成语音谱。按下式计算：,计算加权总拟合误差，选择最佳 0（或 T0）。采用 DFT 的总拟合误差为：在细搜索中，主要考虑高次谐波频带拟合的情况，因此，加权函数在低频端可以取 0，求和下限不从 1 开始；高频端可以取 1，求和上限也不必达到 127。语音频谱一般限制在 2003600 Hz范围内。故按下列公式确定求和上限 q：总拟合误差可以改写成：对 10 个候选基音频率，逐个计算出总拟合误差，使其最小的 0 是当前帧基音周期的精细估计值。,利用偶对称性，只计算了一半的值,4.V/U

19、判决图11.7：V/U 判决的方框图。利用每个谐波处合成谱与窗选语音谱拟合的程度来确定。若归一化拟合误差阈值，判定该谐波频带为浊音带；反之为清音带。采用 DFT 时，前面推导的归一化误差应改写成：也可将几个相邻谐波频带合并成一个频带，根据该频带总拟合误差作出该带的 V/U 判决。,实用 V/U 判决方案：最多分 12 个带，判决方法如下：确定谐波的个数 M。计算式：确定子带的个数 K。每个子带包含 3 个谐波分量（见图11.8）。子带数的计算式：,计算各带的归一化拟合误差。计算式：,计算 V/U 的判决阈值。计算式：第一项：随 0 增大而变大。当 0 增加时谐波个数将减少，拟合误差会变大，此

20、项起到去偏作用。第二项：随 0 升高而变小。由于话音高频端通常更具有随机谱的特征，因此，较多地判为清音区会使合成语音听起来自然。第三项：是同语音当前帧能量 E0、平均能量 Eavg、最小能量 Emin、最大能量 Emax 有关的参数。采用自适应方法，逐帧更新这些参数，以期获得更好的效果。,若用 E(0)表示当前帧的参数，E(-1)表示前一帧的参数，相关量的定义为：且满足的约束条件：,求出上述几个能量之后，再确定函数：V/U 判决。判决规则为：,5.求各谐波幅度或包络图11.9：频谱幅度估计框图。改进 MBE 语音编码器，每个分频带包含 3 个谐波。谐波结构见图11.8。对于第 k 个频带，其频

21、带范围为 a3k-2 b3k，需要确定 3 个频谱幅度 A3k-2、A3k-1、A3k。,浊音带时，按下式计算：如果数码率足够高，也可以直接传送 Am(0)。清音带时，Am 按下式计算：对于最高分频带 K，其频带范围是 a3k-2bM，包含 M-3k+3 个谱幅度。令直流分量 A0=0。,改进 MBE 模型的全部参数为：基音周期 T0，各带的 V/U 判决 Vk,(k=1,2,K)，各谐波处的最佳幅度 Am,(m=1,2,M)。参数传送给解码器前，需量化、编码。INMARSAT-M 语音编码器的比特率为 6.4 kbit/s，帧长 20 ms，每帧 128 bit，其中 45 bit 留给信道

22、编码用，余 83 bit 供量化模型参数用。表11.2：比特分配表。（参数量化的方法从略）,第11章多带激励声码器11.4多带激励语音合成两种合成方法：频域合成法、时域合成法。频域合成法：重建语音谱，求 Fourier 反变换得时域序列。相当于分析过程的逆过程。特点：比较直接，但不能保证合成语音基音周期的平滑变化。时域合成法：利用插值实现帧间基音周期的平滑过渡，可使合成语音更自然。因此，实际的 MBE 算法都采用这种方法。下面介绍时域合成法。图11.10：改进 MBE 语音合成框图。浊音成分与清音成分分开合成，再相加形成完整的合成语音。,11.4.1清音成分的合成清音成分的合成用白噪声激励。初

23、始值为 u(-105)=3147。按下式产生一个白噪声序列 u(n)：对相继的合成语音帧，u(n)移动 20 ms（160 样点），对 u(n)加窗，合成窗 wx(n)长：209 样点。因此，在相继合成语音帧之间，噪声序列重叠 49 样点。对加窗后的 u(n)进行 256 点的 DFT，得：,再根据谐波频带 m 是浊音区（Vk=1）或清音区（Vk=0），再对 Uw(l)进行修正得Uwc(l)：式中，am,bm 定义见前面；Am(0)当前帧的 Am 值。m 伸缩系数，是合成窗 wx(n)与基音精细估计窗 wR(n)的函数，修正效果相当于用一组带通滤波器滤除浊音带的信号。,Uwc(l)中很低及很

24、高的频率成分都置0，即：对得到的频域各点 Uwc(l)，依下式计算其 IDFT：为平滑合成语音，需与前一帧的清音序列作叠接处理。设本帧和前一帧的清音序列分别用表示，则当前合成语音的清音部分 xU(n)由下式计算：式中，N 帧长，N=160；且时，。,11.4.2浊音成分的合成方法：先计算各谐波分量 xV,m(n)，再叠加，得总的浊音，即：式中M(0),M(-1)当前帧、前一帧所含谐波的个数，第 m 次谐波的谱幅度 Am 按以下规则确定：并且式中Am(0),Am(-1)当前帧、前一帧第 m 次谐波的谱幅度。下面算式中的参数 x(0),x(-1)表示当前帧、前一帧的参数 x。,分 5 种不同的前后

25、帧组合情况，进行合成语音的平滑过渡：当前帧/前一帧的第 m 次谐波皆为清音：清音分量按上面的合成方法合成；浊音分量置 0。当前帧第 m 次谐波为清音，前一帧为浊音：浊/清过渡，该部分的浊音分量为：当前帧第 m 次谐波为浊音，前一帧为清音：清/浊过渡，该部分的浊音分量为：当前帧/前一帧的第 m 次谐波皆为浊音，且该部分的浊音分量为：,计算中，时,当前帧/前一帧的第 m 次谐波皆为浊音，且该部分的浊音分量为：式中am(n)幅度函数；m(n)相位函数；,其中，相位参数按以下算式每帧进行更新：式中当前帧中清音谱幅度的数目；随机数，在区间-,)中均匀分布，；当前帧的噪声序列。,11.4.3重建语音的产生分别求出：清音部分和浊音部分后，最后的合成语音为：MBE 声码器是从改善激励源出发的一种语音压缩编码方案。是建立在频谱分析基础上的又一种激励模式。低码率语音编码中，合成音质较传统声码器好得多，且有较好的自然度和容忍环境噪声的能力。,

展开阅读全文