语音信号处理3下载_在线阅读_50

is_392846

暂无简介

语音信号处理3 1 3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6现代通信中的线性预测分析 3.7基音周期估计 3.8共振峰估计 2 3.1 概述语音信号分析语音信号处理的前提和基础，只有分析出可表示语音信号特征的参数，才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的，所以它是...

1 3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6现代通信中的线性预测分析 3.7基音周期估计 3.8共振峰估计 2 3.1 概述语音信号分析语音信号处理的前提和基础，只有分析出可

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

示语音信号特征的参数，才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的，所以它是一个非平衡态过程，不能用处理平衡信号的数字信号处理技术对其进行分析处理。但是在一个短时间范围内（一般认为在10-30ms的短时间内），其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。 3 3.1 概述根据所分析出的参数的性质的不同可以分为：时域分析、频域分析、倒频域分析,线性预测分析等; 分析方法的不同：模型分析方法和非模型分析方法不论是分析怎么样的参数以及采用什么分析方法，在按帧进行语音分析，提取语音参数之前，有一些经常使用的、共同的短时分析技术必须预先进行，如语音信号的数字化、语音信号的预加重、加窗和分帧等，这些也是不可忽视的语音信号分析的关键技术。 3.2 语音信号的数字化和预处理语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；预处理一般包括预加重、加窗和分帧等。带通滤波器自动增益控制（AGC）模 / 数转换（A/D）脉冲编码调制（PCM）语音信号存入计算机 5 3.2.1 语音信号的数字化一、预滤波抑制输入信号各频域分量中频率超出fs/2的所有分量（fs）为采样频率，以防止混叠干扰。抑制50Hz的电源工频干扰。这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：绝大多数语音编译码器： fH =3400Hz，fL =60-100Hz，fS =8kHz 6 二、采样、量化和脉冲编码调制采样：时间离散；量化：幅值离散；编码：二进制码 A/D变换器实现 A/D变换中要对信号进行量化，量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。量化噪声特点：若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型： ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布 3.2.1 语音信号的数字化 7 若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比 SNR（信号与量化噪声的功率比）为：假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小，只有0.35%，因而可取Xmax=4σx，则上式表明量化器中的每bit字长对SNR的贡献为6dB。 ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛−+=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= xe x XBdBSNR σσ σ max 2 2 lg2077.402.6lg10)( 2.702.6)( −= BdBSNR 3.2.1 语音信号的数字化 8 一、预加重由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程跌落，非平坦的，要在预处理中进行预加重（Pre-emphasis）处理。预加重的目的是提升高频部分，使信号的频谱变得平坦，以便于频谱分析或声道参数分析。预加重可以在数字化之前，也可之后；若在数字化之后，一般用一阶的数字滤波器 3.2.2 语音信号的预处理 11)( −−= zZH μ 9 二、分帧处理加窗分帧处理。一般每秒的帧数约为33-100帧，视实际情况而定。分帧虽然可以采用连续分段的方法，但一般要采用的交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1/2。 3.2.2 语音信号的预处理 10 分帧是用可移动的有限长度窗口进行加权的方法来实现的，即用一定的窗函数ω(n)来乘s(n)，从而形成加窗语音信号sω(n)=s(n)* ω(n)。在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等，它们的表达式如下（其中N为帧长）： 1）矩形窗： 2）汉明(Hamming)窗： ⎩⎨ ⎧ = −≤≤= elsen Nn n ,0 )1(0,1 )(ω ⎩⎨ ⎧ = −≤≤−−= elsen NnNn n ,0 )1(0)],1/(2cos[46.054.0 )( πω 3.2.2 语音信号的预处理 11 窗口形状和长度的选择，对短时分析参数的影响很大。 1）窗口的形状虽然，不同的短时分析方法(时域、频域、倒频域分析)以及求取不同的语音特征参数可能对窗函数的要求不尽一样，但一般来讲，一个好的窗函数的标准是：在时域因为是语音波形乘以窗函数，所以要减小时间窗两端的坡度，使窗口边缘两端不引起急剧变化而平滑过渡到零，这样可以使截取出的语音波形缓慢降为零，减小语音帧的截断效应；在频域要有较宽的3dB带宽以及较小的边带最大值。这里只以典型的矩形窗和汉明窗为例进行比较，其他窗口可参阅FIR数字滤波器或谱分析的有关

书

关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf

籍。 3.2.2 语音信号的预处理 12 矩形窗与汉明窗的比较窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗 -13 4π/N -21 汉明窗 -41 8π/N -53 汉明窗的主瓣宽度比矩形窗大一倍，即带宽约增加一倍，同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好，但损失了高频成分，使波形细节丢失；而汉明窗则相反，从这一方面来看，汉明窗比矩形窗更为合适。因此，对语音信号的短时分析来说，窗口的形状是至关重要的。例如，选用不同的窗口将使时域分析参数的短时平均能量的平均结果不同。 3.2.2 语音信号的预处理 13 2）窗口的长度 ¾ 采样周期Ts=1/fs，窗口长度N和频率分辨率Δf之间存在下列关系： Δf=1/NTs 可见，采样周期一定时，Δf随窗口宽度N的增加而减小，即频率分辨率相应得到提高，但同时时间分辨率降低；如果窗口取短，频率分辨率下降，而时间分辨率提高，因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。 3.2.2 语音信号的预处理 14 ¾ 窗口长度的选择，更重要的是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含1～7个基音周期。然而不同人的基音周期变化很大，从女性和儿童的2ms到老年男子的14ms(即基音频率的变化范围为500～70Hz)，所以N的选择比较困难。通常在10kHz取样频率下，N折中选择为100～ 200点为宜(即10～20ms持续时间)。经过上面介绍的处理过程，语音信号被分割成一帧一帧的加过窗函数的短时信号，然后再把每一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，等等，最后得到由每一帧参数组成的语音特征参数的时间序列。 3.2.2 语音信号的预处理 15 3.3 语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的时域参数。语音信号本身就是时域信号，因而时域分析是最早使用，也是应用最广泛的一种分析方法，这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用，如语音的分割、预处理、大分类等。特点：①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④可使用示波器等通用设备，使用较为简单等。 16 设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧语音信号为xn(m),则xn(m)满足下式： xn (m)=ω(m)x(n+m) 其中，n=0,1T,2T,…, T为帧移长度，N为帧长。设第n帧语音信号xn(m)的短时能量用En表示，则其计算公式如下： ⎩⎨ ⎧ = −== 其它值m Nm m ,0 )1(~0,1 )(ω ∑− = = 1 0 2 )( N m nn mxE 3.3.1 短时能量及短时平均幅度分析 17 3.3.1 短时能量及短时平均幅度分析 18 En是一个度量语音信号幅度值变化的函数，但它有一个缺陷，即它对高电平非常敏感（因为它计算时用的是信号的平方)。为此，可采用另一个度量语音信号幅度值变化的函数，即短时平均幅度函数Mn，定义为： Mn也是一帧语音信号能量大小的表征，它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异。用途： 1）区分浊音段和清音段； 2）区分声母韵母分界，无声有声分界等； ∑− = = 1 0 )( N m nn mxM 3.3.1 短时能量及短时平均幅度分析 19 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号，过零即意味着时域波形通过时间轴；而对于离散信号，如果相邻的取样值改变符号则称为过零。过零率就是

样本

保单样本pdf 木马病毒样本下载上虞风机样本下载直线导轨样本下载电脑病毒样本下载

改变符号的次数。定义语音信号xn(m)的短时过零率Zn为：式中，sgn[]是符号函数，即 ∑− = −−= 1 0 )]1(sgn[)](sgn[ 2 1 N m nnn mxmxZ ⎩⎨ ⎧ <− ≥= )0(,1 )0(,1 ]sgn[ x x x 3.3.2 短时过零率分析 20 用途： 1）从背景噪声中找出语音信号； 2）可用于判断寂静无声段和有声段的起点和终点位置； 3）语音分割：在孤立词的语音识别中，必须要在一连串连续的语音信号中进行适当分割，用以确定一个一个单词的语音信号，即找出每一个单词的开始和终止位置。 3.3.2 短时过零率分析 21 短时能量、短时平均幅度和短时过零率都是随机参数，对不同性质的语音具有不同的概律分布。 S — 无声 U — 清音 V — 浊音 22 相关分析是一种常用的时域波形分析方法，并有自相关和互相关之分。对确定性信号自相关函数具有一些性质，如它是偶函数；假设序列具有周期性，则其自相关函数也是同周期的周期函数等。在语音信号分析中，分析的是短时自相关函数。用途：对浊音语音可以用自相关函数求出语音波形序列的基音周期。在进行语信号的线性预测分析时，也要用到自相关函数。 3.3.3 短时相关分析 ∑∞ −∞= += m n kmxmxkR )()()( 23 1．短时自相关函数定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下： K是最大的延迟点数。短时自相关函数性质： (1)如果xn (m)是周期的(设周期为Np )，则自相关函数是同周期的周期函数，即Rn (k)=Rn (k+Np )。 (2)Rn (k)是偶函数，即Rn (k)=Rn (-k)。 (3)当k=0时，自相关函数具有最大值，即Rn (0)≥|Rn (k)|，并且Rn (0)等于确定性信号序列的能量或随机性序列的平均功率。 KkkmxmxkR kN m nnn ≤<+= ∑−− = 0 ,)()()( 1 0 3.3.3 短时相关分析 24 例子：3个自相关函数, N=401 K=250 fs =8KHz 浊音的周期清音自相关函数 KkkmxmxkR kN m nnn ≤<+= ∑−− = 0 ,)()()( 1 0 3.3.3 短时相关分析 25 2.修正的短时自相关函数存在的问题 26 2.修正的短时自相关函数修正的短时自相关函数是用两个长度不同的窗口，截取两个不等长的序列进行乘积和，两个窗口的长度相差最大的延迟点数K。这样就能始终保持乘积和的项数不变，即始终为短窗的长度。修正的短时自相关函数定义为：其中， KkkmxmxkR N m nnn ≤≤+= ∑− = 0,)(')()( 1 0 ⎩⎨ ⎧ = −== 其它值m Nm m ,0 )1(~0,1 )(ω ( ) ( ) ( ),(0 1)nx m m x n m m Nω= + ≤ ≤ − )10(),()(')(' KNkmnxmmx n +−≤≤+=ω ⎩⎨ ⎧ = +−== 其它值m KNm m ,0 )1(~0,1 )('ω 27 2．修正的短时自相关函数修正的短时自相关函数具有互相关函数的特征；在周期信号的倍数上有峰值。 28 短时自相关函数是语音信号时域分析的重要参量。但是，计算自相关函数的运算量很大，其原因是乘法运算所需要的时间较长。利用快速傅里叶变换(FFT)等简化计算方法都无法避免乘法运算。为了避免乘法，一个简单的方法就是利用差值。为此采用另一种与自相关函数有类似作用的参量，即短时平均幅度差函数(AMDF)。平均幅度差函数能够代替自相关函数进行语音分析，是基于这样一个事实：如果信号是完全的周期信号(设周期为Np)，则相距为周期的整数倍的样点上的幅值是相等的，差值为零。 3.3.4 短时平均幅度差函数 ,...)2,,0(,0)()()( pp NNkknxnxnd ±±==+−= 29 对于实际的语音信号，d(n)虽不为零，但其值很小。这些极小值将出现在整数倍周期的位置上。为此，可定义短时平均幅度差函数：可以证明平均幅度差函数和自相关函数有密切的关系，两者之间的关系可由下式表达： ∑−− = +−= kN m nnn kmxmxkF 1 0 )()()( 2/1)]()0()[(2)( kRRkkF nnn −= β 3.3.4 短时平均幅度差函数 30 3.3.4 短时平均幅度差函数 31 3.4 语音信号的频域分析语音信号的频域分析就是分析语音信号的频域特征。从广义上讲，语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等，而常用的频域分析方法有带通滤波器组法、傅里叶变换法、线性预测法等几种。本节介绍的是语音信号的傅里叶分析法。因为语音波是一个非平稳过程，因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号，而应该用短时傅里叶变换对语音信号的频谱进行分析，相应的频谱称为“短时谱”。 32 对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变换，DTFT)，可得到短时傅里叶变换，其定义如下：由定义可知，短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里，窗ω(n)是一个“滑动的”窗口，它随n 的变化而沿着序列x(m)滑动。由于窗口是有限长度的，满足绝对可和条件，所以这个变换是存在的。当然窗口函数不同，傅里叶变换的结果也将不同。 ∑− = −= 1 0 )()( N m mj n j n emxeX ωω 3.4.1 短时傅里叶变换 33 可以将上式写成另一种形式。设语音信号序列和窗口序列的标准傅里叶变换均存在。当n取固定值时，ω(n-m)的傅里叶变换为：根据卷积定理有：因为上式右边两个卷积项均为关于角频率ω的以2π为周期的连续函数，所以也可将其写成以下的卷积积分形式：假设x(m)的DTFT是X(ejω)，且ω(m)的DTFT是W(ejω)，那么 Xn (ejω）是X(ejω)和W(ejω)的周期卷积。 )()( ωωωω jnj m mj eWeemn −− ∞ −∞= − ⋅=−∑ )]([*)()( ωωωω jnjjjn eWeeXeX −− ⋅= ∫− +− ⋅= ππ θωθθω θdeXeeWeX jjnjjn )]([])([21)( )( 34 在语音信号数字处理中，功率谱具有重要意义，在一些语音应用系统中，往往都是利用语音信号的功率谱。根据功率谱定义，可以写出短时功率谱与短时傅里叶变换之间的关系：或者：式中*表示复共轭运算。并且功率谱Sn (ejω)是短时自相关函数Rn (k)的傅里叶变换。 2* )()()()( ωωωω jn j n j n j n eXeXeXeS =⋅= 2* )()()()( kXkXkXkS nnnn =⋅= ∑− +−= −== 1 1 2 )()()( N Nk kj n j n j n ekReXeS ωωω 35 3.5 语音信号的倒谱分析语音信号的倒谱分析就是求取语音倒谱特征参数的过程. 求取倒谱特征参数的方法有两种: 线性预测分析同态分析处理同态信号处理也称为同态滤波，它实现了将卷积关系变换为求和关系的分离处理，即解卷。对语音信号进行解卷，可将语音信号的声门激励信息及声道响应信息分离开来，从而求得声道共振特征和基音周期，用于语音编码、合成、识别等。 36 日常生活中遇到的许多信号，它们并不是加性信号(即组成各分量按加法原则组合起来)而是乘积性信号或卷积性信号，如语音信号、图像信号、通信中的衰落信号、调制信号等。这些信号要用非线性系统来处理。同态信号处理就是将非线性问题转化为线性问题的处理方法。按被处理的信号来分类，大体分为乘积同态处理和卷积同态处理两种。由于语音信号可视为声门激励信号和声道冲击响应的卷积，所以这里仅讨论卷积同态信号处理。 3.5.1 同态信号处理的基本原理 37 卷积同态系统的模型，该系统的输人卷积信号经过系统变换后输出的是一个处理过的卷积信号。同态系统可分解为三个子系统: 两个特征子系统(它们只取决于信号的组合规则)和一个线性子系统(它仅取决于处理的要求)。符号*、+和·分别表示卷积、加法和乘法运算。 3.5.1 同态信号处理的基本原理 38 第一个子系统，它完成将卷积性信号转化为加性信号的运算；第二个子系统是一个普通线性系统，满足线性叠加原理，用于对加性信号进行线性变换；第三个子系统是第一个子系统的逆变换，它将加性信号反变换为卷积性信号. 3.5.1 同态信号处理的基本原理 39 第一个子系统D*[ ]完成将卷积性信号转化为加性信号的运算，即对于信号x(n)=xl(n)*x2(n)进行了如下运算处理： )()()()]([)1( 21 zXzXzXnxZ ⋅== )(ˆ)(ˆ)(ˆ)(ln)(ln)(ln)2( 2121 zXzXzXzXzXzX =+=+= )(ˆ)(ˆ)(ˆ)](ˆ)(ˆ[)](ˆ[)3( 2121 11 nxnxnxzXzXZzXZ =+=+= −−{ 3.5.1 同态信号处理的基本原理 40 由于x^(n)为加性信号，所以第二个子系统可对其进行需要的线性处理得到y^(n)。第三个子系统是逆特征系统D*-1[ ]，它对y^(n)= y1^(n)+y2^(n)进行逆变换，使其恢复为卷积性信号，即进行了如下处理：从而得到卷积性的恢复信号。 ˆ ˆ ˆ( ) [ ( )] ( ) ( ) ( )ˆZ y n Y z Y z Y z= = +1 21 )()()()(ˆexp)2( 21 zYzYzYzY ⋅== )(*)()]()([)()3( 2121 1 nynyzYzYZny =⋅= −{ 3.5.1 同态信号处理的基本原理 41 虽然D*[ ]与D*-1[ ]系统中的x^(n)和y^(n)信号也均是时域序列，但它们所处的离散时域显然不同于x(n) 和y(n)所处的离散时域，所以把它称之为“复倒频谱域”。 x^(n)是x(n)的“复倒频谱”，简称为“复倒谱”，其英文原文为“Complex Cepstrum”， Cepstrum是一个新造的英文词，它是由Spectrum这个词的前四个字母倒置而构成的。同样，序列y^(n)也是 y(n)的复倒谱。 3.5.2 复倒谱和倒谱 42 在绝大多数数字信号处理中，X(z)，X^(z)，Y(z)，Y^(z)的收敛域均包含单位圆，因而D*[ ]与D*-1[ ]系统有如下形式： D*[ ]= D*-1[ ]= [ ( )] ( )jF x n X e ω={ )](ln[)(ˆ ωω jj eXeX = )](ˆ[)(ˆ 1 ωjeXFnx −= { )](ˆ[)(ˆ nyFeY j =ω )](ˆexp[)( ωω jj eYeY = )]([)( 1 ωjeYFny −= 3.5.2 复倒谱和倒谱 43 设: 则取其对数得: 即复数的对数仍是复数，它包含实部和虚部。若只考虑X^(ejω)的实部，令：显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。 c(n)称为“倒频谱”或简称为“倒谱”, 英文原文 “Quefrency”，因此也称为“倒频”。 c(n)实际上就是要求取的语音信号倒谱特征。 )](arg[)(ln)(ˆ ωωω jjj eXjeXeX += )](arg[)()( ωωω jeXjjj eeXeX = ])([ln)( 1 ωjeXFnc −= 44 复倒谱和倒谱特点和关系。 (1)复倒谱要进行复对数运算，而倒谱只进行实对数运算。 (2)在倒谱情况下一个序列经过正逆两个特征系统变换后，不能还原成自身，因为在计算倒谱的过程中将序列的相位信息丢失了。 (3)与复倒谱类似，如果c1 (n)和c2 (n)分别是x1 (n)和 x2 (n)的倒谱，并且x(n)= x1 (n)*x2 (n)，则x(n)的倒谱c(n)= c1 (n)+c2 (n) 。 (4)已知一个实数序列x(n)的复倒谱x^(n)，可以由 x^(n)求出它的倒谱c(n)。 (5)已知一个实数序列x(n)的倒谱c(n)，能否用它来求出复倒谱x^(n)? 45 语音信号:声门激励信号和声道冲激响应两信号的卷积. 1.声门激励信号发清音时，声门激励是能量较小，频谱均匀分布的白噪声；发浊音时，声门激励是以基音为周期的冲激序列：其中，M、r均为正整数，且0≤r≤M，αr 为幅度因子， Np为用样点数表示的基音周期。 3.5.3 语音信号两个卷积分量的复倒谱 ∑ = −= M r pr rNnnx 0 )()( δα 46 计算的复倒谱其中，通常 ∑∑ ∞ = ∞ = −=−+= 01 0 )()()(ln)(ˆ k pk k pk kNnkNnnnx δβδβδα )(nx 0/ aaa rr = 1<ra 47 结论：一个有限长度的周期冲激序列，其复倒谱也是一个周期冲激序列，且周期不变，只是序列变为无限长序列。振幅随着k的增大而衰减，衰减速度比原序列要快。把这种性质应用于语音信号分析中，就意味着除原点外，可以用“高时窗”从语音信号的频谱中提取浊音激励信号的倒谱，从而提取出基音信号。 ∑∞ = −= 0 )()(ˆ k pk kNnnx δβ 48 2.声道冲激响应序列如果用最严格(也是最普遍的)极零点模型来描述声道响应x(n)，则有：求对数可得：求逆变换： ∏∏ ∏∏ == − == − −− −− = 0 0 11 1 11 1 )1()1( )1()1( )( p k k p k k m k k m k k zdzc zbza AzX i i 49 等价为：声道响应序列复倒谱的性质 (1)x^(n)是双边序列。 (2)由于|ak |、|bk |、|ck |、|dk |均小于1，所以x^(n)是衰减序列，即 |x^(n)|随|n|的增大而减小。 (3)|x^(n)|随|n|增大而衰减的速度至少比1/|n|快。 (4)如果x(n)是最小相位序列,即bk =0、dk =0，则x^(n)只在n≥0时有值，且由X^(z)的表达示可知x^(n)是稳定的，即x^(n)为稳定因果序列。也就是说，最小相位信号序列的复倒谱是稳定因果序列。 (5)与(4)相反，最大相位信号序列(极零点均在z平面单位圆外)的复倒谱是稳定反因果序列。 ⎪⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ <− >− = = ∑ ∑ ∑ ∑ = = −− = = 0 0 0ln )(ˆ 0 0 1 1 1 1 n n d n b n n a n c nA nx m k p k n k n k p k m k n k n k i i 50 1．由同态分析求出的语音信号倒谱实例一个信号的倒谱定义为信号频谱模的自然对数的逆傅里叶变换(即设相位恒定为零)。设信号为s(n)，则其倒谱为：根据语音信号产生模型，语音信号s(n)是由声门脉冲激励e(n)经声道响应v(n)滤波而得到，即：设三者的倒谱分别为s^(n)、e^(n)及v^(n)，则有：分离出e^(n)和v^(n)，求出基音频率。 { })]([ln)(ˆ nsDFTIDFTns = )(*)()( nvnens = )(ˆ)(ˆ)(ˆ nvnens += 3.5.4 语音信号倒谱分析实例 51 一帧语音信号： 300点，fs=10K 窗函数选择：汉明窗用途：判断清浊音基音周期共振峰参数 52 2．MEL频率倒谱参数 MFCC分析着眼于人耳的听觉特性 Mel频率与实际频率的关系： Mel(f)=2595lg(1+f/700) 53 MFCC的计算过程： 1）将信号进行傅里叶变换得到其频谱 2）将实际频率尺度转换为Mel 频率尺度 3）在Mel频率轴上配置三角形滤波器组 4）根据语音信号的幅度谱求每个三角形滤波器的输出 5）对三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果 6）进行傅里叶逆变换即可得到MFCC 离散余弦变换 54 3.6 语音信号的线性预测分析线性预测分析的基本思想：由于语音样点之间存在相关性，所以可以用过去的样点值来预测现在或未来的样点值，即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测之间的误差在某个准则下达到最小值来决定唯一的一组预测系数。这组预测系数就反映了语音信号的特性，可以作为语音信号特征参数用于语音识别、语音合成等。 55 线性预测分析的基本思想： ¾ 用过去p个样点值来预测现在或未来的样点值： ¾ 预测误差ε(n)为： ¾ 可以通过在某个准则下使预测误差ε(n)达到最小值的方法来决定惟一的一组线性预测系数ai（i=1， 2，…，p）。 ∑ = −= p i i insans 1 )()(ˆ ∑ = −−=−= p i i insansnsnsn 1 )()()(ˆ)()(ε 3.6.1 线性预测分析的基本原理 56 考虑语音信号产生模型 ¾ 系统的输入e(n)是语音激励，s(n)是输出语音，模型的系统函数H(z)可以写成有理分式的形式： ¾ 采用全极点模型，辐射、声道以及声门激励的组合谱效应的传输函数为： ¾ 差分方程： ∑ ∑ = − = − − + ⋅= p i i i q l l l za zb GzH 1 1 1 1 )( )(1)( )()( 1 zA G za G zE zSzH p i i i = − == ∑ = − 3.6.1 线性预测分析的基本原理 ∑ = −+= p i i insanGens 1 )()()( 57 ¾ 在模型参数估计中，把如下系统称为线性预测器：式中ai 称为线性预测系数。p阶线性预测器的系统函数具有如下形式： ¾ 预测误差为： ¾ 线性预测分析要解决的问题是：给定语音序列(LPC分析必须按帧进行)，使预测误差在某个准则下最小，求预测系数的最佳估值ai ，这个准则通常采用最小均方误差准则。 ∑ = −= p i i insans 1 )()(ˆ ∑ = −= p i i i zazP 1 )( )()()()( 1 nGeinsansn p i i =−−= ∑ = ε 58 线性预测方程把某一帧内的短时平均预测误差定义为： ¾ 为使E{ε2(n)}最小，对aj求偏导，并令其为零，有：表明采用最佳预测系数时，预测误差ε(n)与过去的语音样点正交。 ¾ 对于一帧从n时刻开窗选取的N个样点的语音段Sn，记 Φn(j,i)为 ¾ 则有： ¾ 最小预测误差： { } ⎭⎬ ⎫ ⎩⎨ ⎧ −−== ∑ = 2 1 2 ])()([)( p i i insansEnE εσ ε pjjija n p i ni ,...,1),0,(),( 1 =Φ=Φ∑ = pjjnsinsansE p i i ,...,1,0)(])()([ 1 == ⎭⎬ ⎫ ⎩⎨ ⎧ −−− ∑ = )}()({),( imsjmsEij nnn −−=Φ ∑ = Φ−Φ= P i nin ia 1 ),0()0,0(εσ 59 对于语音段Sn，它的自相关函数为：比较可以定义Φn(j,i)为因此有： pjjmsmsjR N jm n ,...,1,)()()( 1 =−= ∑− = |)(||)|()(),( ||1 0 jiRjimsmsij n jiN m nnn −=−+=Φ ∑−−− = )(|)(| 1 jRjiRa n p i ni =−∑ = 3.6.2 线性预测方程组的求解 )}()({),( imsjmsEij nnn −−=Φ 60 把上式展开写成矩阵形式：方程称Yule-Wslker方程，方程左边的矩阵称为托普利兹(Toeplitz)矩阵，它是以主对角线对称的、而且其沿着主对角线平行方向的各轴向的元素值都相等。这种Yule-Wslker方程可用莱文逊-杜宾(Levinson— Durbin)递推算法来高效地求解。 ⎥⎥ ⎥⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎣ ⎡ = ⎥⎥ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎣ ⎡ ⎥⎥ ⎥⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎣ ⎡ −− − − )( )2( )1( )0()2()1( )2()0()1( )1()1()0( 2 1 pR R R a a a RpRpR pRRR pRRR n n n pnnn nnn nnn ## " #%## " " 61 莱文逊-杜宾递推算法 if i<p go to (1) )0()1( 0 nn RE = ∑− = −− −−= 1 1 1 /)]()([)2( i j ji nn i jni EjiRaiRk i i i ka =)3( 11,)4( 11 −≤≤−= −−− ijakaa i jiiijij 12 )1()5( −−= iniin EkE pjaa pjj ≤≤= 1,)6( 62 1.LPC谱估计当求出一组预测器系数后，就可以得到语音产生模型的频率响应，即：其频率响应H(ejω)即称为LPC谱。共振峰频率上其频率响应特性会出现峰值。所以线性预测分析法又可以看做是一种短时谱估计法。 )(1 )( 01 ωωω ω jp i ij i p i ij i j eA G ea G ea GeH == − = ∑∑ = − = − 3.6.3 LPC谱估计和LPC复倒谱 63 LPC谱特点：在信号能量较大的区域即接近谱的峰值处，LPC谱和信号谱很接近；而在信号能量较低的区域即接近谱的谷底处，则相差比较大。 P的选取如果p选得很大，误差小，而且极零模型也可以用全极点模型来代替，但却增加了计算量和存储量，且p 增加到一定程度以后，预测平方误差的改善就很不明显了，在语音信号处理中，p一般选在8～14之间。 64 2．LPC复倒谱 LPC系数是线性预测分析的基本参数。LPC系数可以表示整个LPC系统冲激响应的复倒谱。设通过线性预测得到的系统函数为：冲激响应，设是复倒谱，有代入并将其两边对求导 1 1( ) 1 p i i i H z a z − = = + ∑ )(nh )(nh)(ˆ nh ∑∞ = −== 1 )(ˆ)(ln)(ˆ n nznhzHzH 1−z 65 得到：令左右两端的常数项和的各次幂的系数相等，有按上式求得的复倒谱h^(n)称之为LPC复倒谱。 0)0(ˆ =h 1)1(ˆ ah −= )(,)(ˆ)/1()(ˆ 1 pnknhanknh p k k >−−−= ∑ = )1(,)(ˆ)/1()(ˆ 1 1 pnknhankanh n k kn ≤≤−−−−= ∑− = 1−z 66 LPC复倒谱特性 ¾ 由于利用了线性预测中声道系统函数H(z)的最小相位特性，避免了相位卷绕问题； ¾ LPC复倒谱的运算量小，它仅是用FFT求复倒谱时运算量的一半； ¾ 因为当p→∞时，语音信号的短时复频谱S(ejω)满足|S(ejω)|= |H(ejω)|，因而可以认为h^(n)包含了语音信号频谱包络信息，即可近似把h^(n)当作s(n) 的短时复倒谱s^(n）。用途：估计出语音短时谱包络和声门激励参数。在实时语音识别中也经常采用LPC复倒谱作为特征矢量。 67 线谱对分析也是一种线性预测分析方法，只是它求解的模型参数是“线谱对”(Line Spectrum Pair，简称为LSP)，它是频域参数。因而和语音信号谱包络的峰有着更紧密的联系；同时它构成合成滤波器H(z)时容易保证其稳定性，合成语音的数码率也比用格型法求解时要低。线谱对参数，可通过系统线性预测系数{ai} 求出。 3.6.4 线谱对分析 ii θω , 68 3.7 语音信号的小波分析小波变换 80 年代以来迅速发展起来的一门新兴科学。虽然数学上它可追溯到（Joseph Fourier）傅立叶的频率分析，它是小波理论的基础。Haar 于 1909 年在论文中第一个提出“小波”名词，他提出 Haar 小波基。Morlet 于 1984 年以理论形式提出小波概念。Meyer 开发出许多方法用作小波分析。小波已成为数学家的领域，仅在最近时期它才被用到信号和图象处理。主要推动小波理论的发展和普及来源于 Daubechie 和 Mallat 的工作。 69 3.7.1 傅里叶变换回顾：可以清楚的了解到信号的频率成分，但不能确定某个频率成分发生的时间 t 70 把信号划分成许多小的时间间隔，用傅立叶变换分析每个时间间隔，以便确定该时间间隔存在的频率短时傅立叶变换： ∫ +∞∞− Ω−−=Ω dtetgtfF tj)()(),( ττ , , : ( ) ( ) ( )* ( ) ( ) ( ) ( , ) ( ), ( ) ( ) ( ) j t j t STFT f t g t F G f t g t e dt STFT g t f t g t g t e τ τ τ τ τ +∞ − Ω −∞ Ω − Ω Ω ↔ Ω Ω = − Ω = = − ∫ 3.7.2 短时傅里叶变换 71 。率时－频平面表示的分辨 cellSTFT 03Ω τσ2 Ωσ2 0Ω 1τ 2τ t STFT固定时间窗 g(t)带来固定的频率分辨率。这是不定原理结论，对于任一变换对 2 1 )()( ≥ Ω↔ Ωσσ T Gtg 72 对所有的频率都使用相同的窗，那么，如果窗小了不利于低频成分分析，窗大了又不利于高频成分。如果能写出这样的窗函数，就可以很好的表示信号的时间和频率定位, 解决了短时傅立叶变换所遇到的问题。这里边隐含着小波变换的基本思想。 t 73 定义：小波变换的核是由基本小波的伸缩平移产生的用a伸缩小波函数的时间t，相应的产生频域伸缩，因此小波变换提供可变的时－频分辨率。 )()( )()(),( 2/1 , , a btat dtttfbaCWT ba ba −= = − ∞ ∞− ∗∫ ψψ ψ 3.7.3 连续小波变换变换 74 Harr 4 )4(sin)( 0 1211 2101 )( 2 2 ω ωωψψ ωjje otherwise t t t −=↔ ⎪⎩ ⎪⎨ ⎧ <≤− ≤≤ 1 0 1− 5.0 1 t )(tψ )(ωψ ω 20− 010− 10 20 75 1、离散小波变换离散小波变换将伸缩和平移参数离散化若令称为二进小波变换 )(1)(, a bt a tba −= ψψ mm anbbaaa 0000 ,1, =>= 3.7.4 离散小波变换变换 )()(1)( 00 2/ 0 0 00 0 , nbtaaa anbt a t mmm m mnm −=−= −− ψψψ 1 ,2 00 == ba )2(2)( 2/, ntt mm nm −= −− ψψ 76 2 Mallat 算法 1988年，Mallat 基于多分辨率分析的框架，建立了小波的快速算法。分解：重构过程： 3.7.4 离散小波变换变换 77 Noissin信号的周期性判别 )(1)(, a bt a tba −= ψψ ∫+∞∞−== dtttfbaWbaCWT baf )()(),(),( *,ψ )()( 2 RLtf ∈Rb∈ 3.7.5 小波变换的例子 78 音基音检测 )(1)(, a bt a tba −= ψψ )()( 2 RLtf ∈Rb∈ 3.7.5 小波变换的例子 79 3.8 基音周期估计基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一，它描述了语音激励源的一个重要特征。应用语音识别、说话人识别、语音分析与综合以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等。 80 基音检测的

本文档为【语音信号处理3】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

语音信号处理3

热门搜索

历史搜索