1
3.1概述
3.2语音信号的数字化和预处理
3.3语音信号的时域分析
3.4语音信号的频域分析
3.5语音信号的倒谱分析
3.6现代通信中的线性预测分析
3.7基音周期估计
3.8共振峰估计
2
3.1 概述
语音信号分析 语音信号处理的前提和基础,只有分析出可
示语音信号特征的参数,才有可能利用这些参数进行高效
的语音通信、语音合成和语音识别等处理。
贯穿于语音分析全过程的是“短时分析技术”
语音信号从整体来看其特征及表征其本质特征的参数均
是随时间而变化的,所以它是一个非平衡态过程,不能用处
理平衡信号的数字信号处理技术对其进行分析处理。
但是在一个短时间范围内(一般认为在10-30ms的短时
间内),其特性基本保持不变即相对稳定,因而可以将其看
作是一个准稳态过程,即语音信号具有短时平稳性。
3
3.1 概述
根据所分析出的参数的性质的不同可以分为:
时域分析、频域分析、倒频域分析,线性预测分析等;
分析方法的不同:
模型分析方法和非模型分析方法
不论是分析怎么样的参数以及采用什么分析方法,在按帧进
行语音分析,提取语音参数之前,有一些经常使用的、共同
的短时分析技术必须预先进行,如语音信号的数字化、语音
信号的预加重、加窗和分帧等,这些也是不可忽视的语音信
号分析的关键技术。
3.2 语音信号的数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混叠滤波、
采样、A/D变换及编码(一般就是PCM码);
预处理一般包括预加重、加窗和分帧等。
带通滤
波器
自动增益控
制(AGC)
模 / 数转换
(A/D)
脉冲编码
调制(PCM)
语音信号
存入计算机
5
3.2.1 语音信号的数字化
一、预滤波
抑制输入信号各频域分量中频率超出fs/2的所有分量(fs)
为采样频率,以防止混叠干扰。
抑制50Hz的电源工频干扰。
这样,预滤波器必须是一个带通滤波器,设其上、下截止频
率分别是fH和fL:
绝大多数语音编译码器:
fH
=3400Hz,fL
=60-100Hz,fS
=8kHz
6
二、采样、量化和脉冲编码调制
采样:时间离散;量化:幅值离散;编码:二进制码
A/D变换器实现
A/D变换中要对信号进行量化,量化不可避免地会产生误
差。量化后的信号值与原信号值之间的差值称为量化误
差,又称为量化噪声。
量化噪声特点:
若信号波形的变化足够大,或量化间隔Δ足够小
时,可以证明量化噪声符合具有下列特征的统计模型:
①它是平稳的白噪声过程
②量化噪声与输入信号不相关
③量化噪声在量化间隔内均匀分布,即具有等概率密
度分布
3.2.1 语音信号的数字化
7
若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表
示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比
SNR(信号与量化噪声的功率比)为:
假设语音信号的幅度符合Laplacian分布,此时信号幅度超过
4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则
上式表明量化器中的每bit字长对SNR的贡献为6dB。
⎟⎟⎠
⎞
⎜⎜⎝
⎛−+=⎟⎟⎠
⎞
⎜⎜⎝
⎛=
xe
x XBdBSNR σσ
σ max
2
2
lg2077.402.6lg10)(
2.702.6)( −= BdBSNR
3.2.1 语音信号的数字化
8
一、预加重
由于语音信号的平均功率谱受声门激励和口鼻辐射影
响,高频端大约在800Hz以上按6dB/倍频程跌落,非平
坦的,要在预处理中进行预加重(Pre-emphasis)处理。
预加重的目的是提升高频部分,使信号的频谱变得平
坦,以便于频谱分析或声道参数分析。
预加重可以在数字化之前,也可之后;
若在数字化之后,一般用一阶的数字滤波器
3.2.2 语音信号的预处理
11)( −−= zZH μ
9
二、分帧处理
加窗分帧处理。一般每秒的帧数约为33-100帧,视实际情
况而定。分帧虽然可以采用连续分段的方法,但一般要采
用的交叠分段的方法,这是为了使帧与帧之间平滑过渡,
保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧
移与帧长的比值一般取为0-1/2。
3.2.2 语音信号的预处理
10
分帧是用可移动的有限长度窗口进行加权的方法来实现
的,即用一定的窗函数ω(n)来乘s(n),从而形成加窗
语音信号sω(n)=s(n)* ω(n)。
在语音信号数字处理中常用的窗函数是矩形窗和汉明窗
等,它们的表达式如下(其中N为帧长):
1)矩形窗:
2)汉明(Hamming)窗:
⎩⎨
⎧
=
−≤≤=
elsen
Nn
n
,0
)1(0,1
)(ω
⎩⎨
⎧
=
−≤≤−−=
elsen
NnNn
n
,0
)1(0)],1/(2cos[46.054.0
)(
πω
3.2.2 语音信号的预处理
11
窗口形状和长度的选择,对短时分析参数的影响很大。
1)窗口的形状
虽然,不同的短时分析方法(时域、频域、倒频域分析)以及
求取不同的语音特征参数可能对窗函数的要求不尽一样,但
一般来讲,一个好的窗函数的标准是:在时域因为是语音波
形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘
两端不引起急剧变化而平滑过渡到零,这样可以使截取出的
语音波形缓慢降为零,减小语音帧的截断效应;在频域要有
较宽的3dB带宽以及较小的边带最大值。这里只以典型的矩
形窗和汉明窗为例进行比较,其他窗口可参阅FIR数字滤波
器或谱分析的有关
籍。
3.2.2 语音信号的预处理
12
矩形窗与汉明窗的比较
窗类型 旁瓣峰值 主瓣宽度 最小阻带衰减
矩形窗 -13 4π/N -21
汉明窗 -41 8π/N -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一
倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平
滑性能较好,但损失了高频成分,使波形细节丢失;而汉
明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。
因此,对语音信号的短时分析来说,窗口的形状是至关重
要的。例如,选用不同的窗口将使时域分析参数的短时平
均能量的平均结果不同。
3.2.2 语音信号的预处理
13
2)窗口的长度
¾ 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列
关系:
Δf=1/NTs
可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即
频率分辨率相应得到提高,但同时时间分辨率降低;如果窗
口取短,频率分辨率下降,而时间分辨率提高,因而二者是
矛盾的。应该根据不同的需要选择合适的窗口长度。
3.2.2 语音信号的预处理
14
¾ 窗口长度的选择,更重要的是要考虑语音信号的基音周期。
通常认为在一个语音帧内应包含1~7个基音周期。然而不
同人的基音周期变化很大,从女性和儿童的2ms到老年男子
的14ms(即基音频率的变化范围为500~70Hz),所以N的选
择比较困难。通常在10kHz取样频率下,N折中选择为100~
200点为宜(即10~20ms持续时间)。
经过上面介绍的处理过程,语音信号被分割成一帧一帧的
加过窗函数的短时信号,然后再把每一个短时语音帧看成
平稳的随机信号,利用数字信号处理技术来提取语音特征
参数。在进行处理时,按帧从数据区中取出数据,处理完
成后再取下一帧,等等,最后得到由每一帧参数组成的语
音特征参数的时间序列。
3.2.2 语音信号的预处理
15
3.3 语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域
参数。语音信号本身就是时域信号,因而时域分析是
最早使用,也是应用最广泛的一种分析方法,这种方
法直接利用语音信号的时域波形。
时域分析通常用于最基本的参数分析及应用,如语音
的分割、预处理、大分类等。
特点:①表示语音信号比较直观、物理意义明确。
②实现起来比较简单、运算量少。
③可以得到语音的一些重要的参数。
④可使用示波器等通用设备,使用较为简单等。
16
设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧
语音信号为xn(m),则xn(m)满足下式:
xn
(m)=ω(m)x(n+m)
其中,n=0,1T,2T,…,
T为帧移长度,N为帧长。
设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式
如下:
⎩⎨
⎧
=
−== 其它值m
Nm
m
,0
)1(~0,1
)(ω
∑−
=
=
1
0
2 )(
N
m
nn mxE
3.3.1 短时能量及短时平均幅度分析
17
3.3.1 短时能量及短时平均幅度分析
18
En是一个度量语音信号幅度值变化的函数,但它有一个缺
陷,即它对高电平非常敏感(因为它计算时用的是信号的平
方)。为此,可采用另一个度量语音信号幅度值变化的函
数,即短时平均幅度函数Mn,定义为:
Mn也是一帧语音信号能量大小的表征,它与En的区别在于计
算时小取样值和大取样值不会因取平方而造成较大差异。
用途:
1)区分浊音段和清音段;
2)区分声母韵母分界,无声有声分界等;
∑−
=
=
1
0
)(
N
m
nn mxM
3.3.1 短时能量及短时平均幅度分析
19
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)
的次数。过零分析是语音时域分析中最简单的一种。对于连
续语音信号,过零即意味着时域波形通过时间轴;而对于离
散信号,如果相邻的取样值改变符号则称为过零。过零率就
是
改变符号的次数。
定义语音信号xn(m)的短时过零率Zn为:
式中,sgn[]是符号函数,即
∑−
=
−−=
1
0
)]1(sgn[)](sgn[
2
1 N
m
nnn mxmxZ
⎩⎨
⎧
<−
≥=
)0(,1
)0(,1
]sgn[
x
x
x
3.3.2 短时过零率分析
20
用途:
1)从背景噪声中找出语音信号;
2)可用于判断寂静无声段和有声段的起点和终点位置;
3)语音分割:在孤立词的语音识别中,必须要在一连串连
续的语音信号中进行适当分割,用以确定一个一个单词的
语音信号,即找出每一个单词的开始和终止位置。
3.3.2 短时过零率分析
21
短时能量、短时平均幅度和
短时过零率都是随机参数,
对不同性质的语音具有不同
的概律分布。
S — 无声
U — 清音
V — 浊音
22
相关分析是一种常用的时域波形分析方法,并有自相关
和互相关之分。
对确定性信号
自相关函数具有一些性质,如它是偶函数;假设序列具
有周期性,则其自相关函数也是同周期的周期函数等。
在语音信号分析中,分析的是短时自相关函数。
用途:
对浊音语音可以用自相关函数求出语音波形序列的基
音周期。
在进行语信号的线性预测分析时,也要用到自相关函
数。
3.3.3 短时相关分析
∑∞
−∞=
+=
m
n kmxmxkR )()()(
23
1.短时自相关函数
定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
K是最大的延迟点数。
短时自相关函数性质:
(1)如果xn
(m)是周期的(设周期为Np
),则自相关函数是同周
期的周期函数,即Rn
(k)=Rn
(k+Np
)。
(2)Rn
(k)是偶函数,即Rn
(k)=Rn
(-k)。
(3)当k=0时,自相关函数具有最大值,即Rn
(0)≥|Rn
(k)|,
并且Rn
(0)等于确定性信号序列的能量或随机性序列的平均
功率。
KkkmxmxkR
kN
m
nnn ≤<+= ∑−−
=
0 ,)()()(
1
0
3.3.3 短时相关分析
24
例子:3个自相关函数, N=401 K=250 fs
=8KHz
浊音的周期
清音自相关函数
KkkmxmxkR
kN
m
nnn ≤<+= ∑−−
=
0 ,)()()(
1
0
3.3.3 短时相关分析
25
2.修正的短时自相关函数
存在的问题
26
2.修正的短时自相关函数
修正的短时自相关函数是用两个长度不同的窗口,截取两个
不等长的序列进行乘积和,两个窗口的长度相差最大的延迟
点数K。这样就能始终保持乘积和的项数不变,即始终为短
窗的长度。修正的短时自相关函数定义为:
其中,
KkkmxmxkR
N
m
nnn ≤≤+= ∑−
=
0,)(')()(
1
0
⎩⎨
⎧
=
−== 其它值m
Nm
m
,0
)1(~0,1
)(ω
( ) ( ) ( ),(0 1)nx m m x n m m Nω= + ≤ ≤ −
)10(),()(')(' KNkmnxmmx n +−≤≤+=ω
⎩⎨
⎧
=
+−== 其它值m
KNm
m
,0
)1(~0,1
)('ω
27
2.修正的短时自相关函数
修正的短时自相关
函数具有互相关函
数的特征;
在周期信号的倍数
上有峰值。
28
短时自相关函数是语音信号时域分析的重要参量。但
是,计算自相关函数的运算量很大,其原因是乘法运算
所需要的时间较长。利用快速傅里叶变换(FFT)等简化
计算方法都无法避免乘法运算。为了避免乘法,一个简
单的方法就是利用差值。为此采用另一种与自相关函数
有类似作用的参量,即短时平均幅度差函数(AMDF)。
平均幅度差函数能够代替自相关函数进行语音分析,是
基于这样一个事实:如果信号是完全的周期信号(设周
期为Np),则相距为周期的整数倍的样点上的幅值是相等
的,差值为零。
3.3.4 短时平均幅度差函数
,...)2,,0(,0)()()( pp NNkknxnxnd ±±==+−=
29
对于实际的语音信号,d(n)虽不为零,但其值很小。这
些极小值将出现在整数倍周期的位置上。为此,可定义
短时平均幅度差函数:
可以证明平均幅度差函数和自相关函数有密切的关系,
两者之间的关系可由下式表达:
∑−−
=
+−=
kN
m
nnn kmxmxkF
1
0
)()()(
2/1)]()0()[(2)( kRRkkF nnn −= β
3.3.4 短时平均幅度差函数
30
3.3.4 短时平均幅度差函数
31
3.4 语音信号的频域分析
语音信号的频域分析就是分析语音信号的频域特征。从
广义上讲,语音信号的频域分析包括语音信号的频谱、
功率谱、倒频谱、频谱包络分析等,而常用的频域分析
方法有带通滤波器组法、傅里叶变换法、线性预测法等
几种。本节介绍的是语音信号的傅里叶分析法。因为语
音波是一个非平稳过程,因此适用于周期、瞬变或平稳
随机信号的标准傅里叶变换不能用来直接表示语音信
号,而应该用短时傅里叶变换对语音信号的频谱进行分
析,相应的频谱称为“短时谱”。
32
对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变
换,DTFT),可得到短时傅里叶变换,其定义如下:
由定义可知,短时傅里叶变换实际就是窗选语音信号的标准
傅里叶变换。这里,窗ω(n)是一个“滑动的”窗口,它随n
的变化而沿着序列x(m)滑动。由于窗口是有限长度的,满足
绝对可和条件,所以这个变换是存在的。当然窗口函数不
同,傅里叶变换的结果也将不同。
∑−
=
−=
1
0
)()(
N
m
mj
n
j
n emxeX
ωω
3.4.1 短时傅里叶变换
33
可以将上式写成另一种形式。设语音信号序列和窗口序列的
标准傅里叶变换均存在。当n取固定值时,ω(n-m)的傅里叶
变换为:
根据卷积定理有:
因为上式右边两个卷积项均为关于角频率ω的以2π为周期
的连续函数,所以也可将其写成以下的卷积积分形式:
假设x(m)的DTFT是X(ejω),且ω(m)的DTFT是W(ejω),那么
Xn
(ejω)是X(ejω)和W(ejω)的周期卷积。
)()( ωωωω jnj
m
mj eWeemn −−
∞
−∞=
− ⋅=−∑
)]([*)()( ωωωω jnjjjn eWeeXeX
−− ⋅=
∫− +− ⋅= ππ θωθθω θdeXeeWeX jjnjjn )]([])([21)( )(
34
在语音信号数字处理中,功率谱具有重要意义,在一些语音
应用系统中,往往都是利用语音信号的功率谱。根据功率谱
定义,可以写出短时功率谱与短时傅里叶变换之间的关系:
或者:
式中*表示复共轭运算。并且功率谱Sn
(ejω)是短时自相关函
数Rn
(k)的傅里叶变换。
2* )()()()( ωωωω jn
j
n
j
n
j
n eXeXeXeS =⋅=
2* )()()()( kXkXkXkS nnnn =⋅=
∑−
+−=
−==
1
1
2
)()()(
N
Nk
kj
n
j
n
j
n ekReXeS
ωωω
35
3.5 语音信号的倒谱分析
语音信号的倒谱分析就是求取语音倒谱特征参数的
过程.
求取倒谱特征参数的方法有两种:
线性预测分析
同态分析处理
同态信号处理也称为同态滤波,它实现了将卷积关
系变换为求和关系的分离处理,即解卷。
对语音信号进行解卷,可将语音信号的声门激励信
息及声道响应信息分离开来,从而求得声道共振特
征和基音周期,用于语音编码、合成、识别等。
36
日常生活中遇到的许多信号,它们并不是加性信号(即
组成各分量按加法原则组合起来)而是乘积性信号或卷
积性信号,如语音信号、图像信号、通信中的衰落信号、
调制信号等。这些信号要用非线性系统来处理。
同态信号处理就是将非线性问题转化为线性问题的处理
方法。
按被处理的信号来分类,大体分为乘积同态处理和卷积
同态处理两种。由于语音信号可视为声门激励信号和声
道冲击响应的卷积,所以这里仅讨论卷积同态信号处理。
3.5.1 同态信号处理的基本原理
37
卷积同态系统的模型,该系统的输人卷积信号经过系统
变换后输出的是一个处理过的卷积信号。
同态系统可分解为三个子系统:
两个特征子系统(它们只取决于信号的组合规则)和一个
线性子系统(它仅取决于处理的要求)。
符号*、+和·分别表示卷积、加法和乘法运算。
3.5.1 同态信号处理的基本原理
38
第一个子系统,它完成将卷积性信号转化为加性信号的运
算;第二个子系统是一个普通线性系统,满足线性叠加原
理,用于对加性信号进行线性变换;第三个子系统是第一
个子系统的逆变换,它将加性信号反变换为卷积性信号.
3.5.1 同态信号处理的基本原理
39
第一个子系统D*[ ]完成将卷积性信号转化为加性信
号的运算,即对于信号x(n)=xl(n)*x2(n)进行了如下运
算处理:
)()()()]([)1( 21 zXzXzXnxZ ⋅==
)(ˆ)(ˆ)(ˆ)(ln)(ln)(ln)2( 2121 zXzXzXzXzXzX =+=+=
)(ˆ)(ˆ)(ˆ)](ˆ)(ˆ[)](ˆ[)3( 2121
11 nxnxnxzXzXZzXZ =+=+= −−{
3.5.1 同态信号处理的基本原理
40
由于x^(n)为加性信号,所以第二个子系统可对其进行需
要的线性处理得到y^(n)。
第三个子系统是逆特征系统D*-1[ ],它对y^(n)=
y1^(n)+y2^(n)进行逆变换,使其恢复为卷积性信号,
即进行了如下处理:
从而得到卷积性的恢复信号。
ˆ ˆ ˆ( ) [ ( )] ( ) ( ) ( )ˆZ y n Y z Y z Y z= = +1 21
)()()()(ˆexp)2( 21 zYzYzYzY ⋅==
)(*)()]()([)()3( 2121
1 nynyzYzYZny =⋅= −{
3.5.1 同态信号处理的基本原理
41
虽然D*[ ]与D*-1[ ]系统中的x^(n)和y^(n)信号也均
是时域序列,但它们所处的离散时域显然不同于x(n)
和y(n)所处的离散时域,所以把它称之为“复倒频谱
域”。 x^(n)是x(n)的“复倒频谱”,简称为“复倒
谱”,其英文原文为“Complex Cepstrum”,
Cepstrum是一个新造的英文词,它是由Spectrum这个
词的前四个字母倒置而构成的。同样,序列y^(n)也是
y(n)的复倒谱。
3.5.2 复倒谱和倒谱
42
在绝大多数数字信号处理中,X(z),X^(z),Y(z),Y^(z)的
收敛域均包含单位圆,因而D*[ ]与D*-1[ ]系统有如下形
式:
D*[ ]=
D*-1[ ]=
[ ( )] ( )jF x n X e ω={ )](ln[)(ˆ ωω jj eXeX = )](ˆ[)(ˆ 1 ωjeXFnx −=
{ )](ˆ[)(ˆ nyFeY j =ω )](ˆexp[)( ωω jj eYeY = )]([)( 1 ωjeYFny −=
3.5.2 复倒谱和倒谱
43
设:
则取其对数得:
即复数的对数仍是复数,它包含实部和虚部。
若只考虑X^(ejω)的实部,令:
显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。
c(n)称为“倒频谱”或简称为“倒谱”,
英文原文
“Quefrency”,因此也称为“倒频”。
c(n)实际上就是要求取的语音信号倒谱特征。
)](arg[)(ln)(ˆ ωωω jjj eXjeXeX +=
)](arg[)()(
ωωω jeXjjj eeXeX =
])([ln)( 1 ωjeXFnc −=
44
复倒谱和倒谱特点和关系。
(1)复倒谱要进行复对数运算,而倒谱只进行实对数
运算。
(2)在倒谱情况下一个序列经过正逆两个特征系统变
换后,不能还原成自身,因为在计算倒谱的过程中
将序列的相位信息丢失了。
(3)与复倒谱类似,如果c1
(n)和c2
(n)分别是x1
(n)和
x2
(n)的倒谱,并且x(n)= x1
(n)*x2
(n),则x(n)的倒
谱c(n)= c1
(n)+c2
(n) 。
(4)已知一个实数序列x(n)的复倒谱x^(n),可以由
x^(n)求出它的倒谱c(n)。
(5)已知一个实数序列x(n)的倒谱c(n),能否用它来
求出复倒谱x^(n)?
45
语音信号:声门激励信号和声道冲激响应两信号的卷积.
1.声门激励信号
发清音时,声门激励是能量较小,频谱均匀分布的白噪
声;
发浊音时,声门激励是以基音为周期的冲激序列:
其中,M、r均为正整数,且0≤r≤M,αr
为幅度因子,
Np为用样点数表示的基音周期。
3.5.3 语音信号两个卷积分量的复倒谱
∑
=
−=
M
r
pr rNnnx
0
)()( δα
46
计算 的复倒谱
其中
,通常
∑∑ ∞
=
∞
=
−=−+=
01
0 )()()(ln)(ˆ
k
pk
k
pk kNnkNnnnx δβδβδα
)(nx
0/ aaa rr = 1<ra
47
结论:
一个有限长度的周期冲激序列,其复倒谱也是一个
周期冲激序列,且周期不变,只是序列变为无限长
序列。
振幅随着k的增大而衰减,衰减速度比原序列要快。
把这种性质应用于语音信号分析中,就意味着除原
点外,可以用“高时窗”从语音信号的频谱中提取
浊音激励信号的倒谱,从而提取出基音信号。
∑∞
=
−=
0
)()(ˆ
k
pk kNnnx δβ
48
2.声道冲激响应序列
如果用最严格(也是最普遍的)极零点模型来描述声道响
应x(n),则有:
求对数可得:
求逆变换:
∏∏
∏∏
==
−
==
−
−−
−−
=
0
0
11
1
11
1
)1()1(
)1()1(
)( p
k
k
p
k
k
m
k
k
m
k
k
zdzc
zbza
AzX
i
i
49
等价为:
声道响应序列复倒谱的性质
(1)x^(n)是双边序列。
(2)由于|ak
|、|bk
|、|ck
|、|dk
|均小于1,所以x^(n)是衰减序列,即
|x^(n)|随|n|的增大而减小。
(3)|x^(n)|随|n|增大而衰减的速度至少比1/|n|快。
(4)如果x(n)是最小相位序列,即bk
=0、dk
=0,则x^(n)只在n≥0时有
值,且由X^(z)的表达示可知x^(n)是稳定的,即x^(n)为稳定因果
序列。也就是说,最小相位信号序列的复倒谱是稳定因果序列。
(5)与(4)相反,最大相位信号序列(极零点均在z平面单位圆外)的复
倒谱是稳定反因果序列。
⎪⎪
⎪
⎩
⎪⎪
⎪
⎨
⎧
<−
>−
=
=
∑ ∑
∑ ∑
= =
−−
= =
0
0
0ln
)(ˆ
0 0
1 1
1 1
n
n
d
n
b
n
n
a
n
c
nA
nx
m
k
p
k
n
k
n
k
p
k
m
k
n
k
n
k
i i
50
1.由同态分析求出的语音信号倒谱实例
一个信号的倒谱定义为信号频谱模的自然对数的逆傅
里叶变换(即设相位恒定为零)。设信号为s(n),则其
倒谱为:
根据语音信号产生模型,语音信号s(n)是由声门脉冲
激励e(n)经声道响应v(n)滤波而得到,即:
设三者的倒谱分别为s^(n)、e^(n)及v^(n),则有:
分离出e^(n)和v^(n),求出基音频率。
{ })]([ln)(ˆ nsDFTIDFTns =
)(*)()( nvnens =
)(ˆ)(ˆ)(ˆ nvnens +=
3.5.4 语音信号倒谱分析实例
51
一帧语音信号:
300点,fs=10K
窗函数选择:汉明窗
用途:
判断清浊音
基音周期
共振峰参数
52
2.MEL频率倒谱参数
MFCC分析着眼于人耳的听觉特性
Mel频率与实际频率的关系:
Mel(f)=2595lg(1+f/700)
53
MFCC的计算过程:
1)将信号进行傅里叶变换得到其频谱
2)将实际频率尺度转换为Mel 频率尺度
3)在Mel频率轴上配置三角形滤波器组
4) 根据语音信号的幅度谱求
每个三角形滤波器的输出
5)对三角窗滤波器组的输出
求取对数,可以得到近似
于同态变换的结果
6)进行傅里叶逆变换即可得到MFCC
离散余弦变换
54
3.6 语音信号的线性预测分析
线性预测分析的基本思想:
由于语音样点之间存在相关性,所以可以用过去的
样点值来预测现在或未来的样点值,即一个语音的
抽样能够用过去若干个语音抽样或它们的线性组合
来逼近。
通过使实际语音抽样和线性预测之间的误差在某个
准则下达到最小值来决定唯一的一组预测系数。
这组预测系数就反映了语音信号的特性,可以作为
语音信号特征参数用于语音识别、语音合成等。
55
线性预测分析的基本思想:
¾ 用过去p个样点值来预测现在或未来的样点值:
¾ 预测误差ε(n)为:
¾ 可以通过在某个准则下使预测误差ε(n)达到最小值
的方法来决定惟一的一组线性预测系数ai(i=1,
2,…,p)。
∑
=
−=
p
i
i insans
1
)()(ˆ
∑
=
−−=−=
p
i
i insansnsnsn
1
)()()(ˆ)()(ε
3.6.1 线性预测分析的基本原理
56
考虑语音信号产生模型
¾ 系统的输入e(n)是语音激励,s(n)是输出语音,模型
的系统函数H(z)可以写成有理分式的形式:
¾ 采用全极点模型,辐射、声道以及声门激励的组合谱
效应的传输函数为:
¾ 差分方程:
∑
∑
=
−
=
−
−
+
⋅= p
i
i
i
q
l
l
l
za
zb
GzH
1
1
1
1
)(
)(1)(
)()(
1
zA
G
za
G
zE
zSzH p
i
i
i
=
−
==
∑
=
−
3.6.1 线性预测分析的基本原理
∑
=
−+=
p
i
i insanGens
1
)()()(
57
¾ 在模型参数估计中,把如下系统称为线性预测器:
式中ai
称为线性预测系数。p阶线性预测器的系统函数具
有如下形式:
¾ 预测误差为:
¾ 线性预测分析要解决的问题是:
给定语音序列(LPC分析必须按帧进行),使预测误差在
某个准则下最小,求预测系数的最佳估值ai
,这个准则
通常采用最小均方误差准则。
∑
=
−=
p
i
i insans
1
)()(ˆ
∑
=
−=
p
i
i
i zazP
1
)(
)()()()(
1
nGeinsansn
p
i
i =−−= ∑
=
ε
58
线性预测方程
把某一帧内的短时平均预测误差定义为:
¾ 为使E{ε2(n)}最小,对aj求偏导,并令其为零,有:
表明采用最佳预测系数时,预测误差ε(n)与过去的语
音样点正交。
¾ 对于一帧从n时刻开窗选取的N个样点的语音段Sn,记
Φn(j,i)为
¾ 则有:
¾ 最小预测误差:
{ }
⎭⎬
⎫
⎩⎨
⎧ −−== ∑
=
2
1
2 ])()([)(
p
i
i insansEnE εσ ε
pjjija n
p
i
ni ,...,1),0,(),(
1
=Φ=Φ∑
=
pjjnsinsansE
p
i
i ,...,1,0)(])()([
1
==
⎭⎬
⎫
⎩⎨
⎧ −−− ∑
=
)}()({),( imsjmsEij nnn −−=Φ
∑
=
Φ−Φ=
P
i
nin ia
1
),0()0,0(εσ
59
对于语音段Sn,它的自相关函数为:
比较
可以定义Φn(j,i)为
因此有:
pjjmsmsjR
N
jm
n ,...,1,)()()(
1
=−= ∑−
=
|)(||)|()(),(
||1
0
jiRjimsmsij n
jiN
m
nnn −=−+=Φ ∑−−−
=
)(|)(|
1
jRjiRa n
p
i
ni =−∑
=
3.6.2 线性预测方程组的求解
)}()({),( imsjmsEij nnn −−=Φ
60
把上式展开写成矩阵形式:
方程称Yule-Wslker方程,方程左边的矩阵称为托普利
兹(Toeplitz)矩阵,它是以主对角线对称的、而且其沿
着主对角线平行方向的各轴向的元素值都相等。
这种Yule-Wslker方程可用莱文逊-杜宾(Levinson—
Durbin)递推算法来高效地求解。
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎣
⎡
=
⎥⎥
⎥⎥
⎥
⎦
⎤
⎢⎢
⎢⎢
⎢
⎣
⎡
⎥⎥
⎥⎥
⎦
⎤
⎢⎢
⎢⎢
⎣
⎡
−−
−
−
)(
)2(
)1(
)0()2()1(
)2()0()1(
)1()1()0(
2
1
pR
R
R
a
a
a
RpRpR
pRRR
pRRR
n
n
n
pnnn
nnn
nnn
##
"
#%##
"
"
61
莱文逊-杜宾递推算法
if i<p go to (1)
)0()1( 0 nn RE =
∑−
=
−− −−=
1
1
1 /)]()([)2(
i
j
ji
nn
i
jni EjiRaiRk
i
i
i ka =)3(
11,)4( 11 −≤≤−= −−− ijakaa i jiiijij
12 )1()5( −−= iniin EkE
pjaa pjj ≤≤= 1,)6(
62
1.LPC谱估计
当求出一组预测器系数后,就可以得到语音产生模型
的频率响应,即:
其频率响应H(ejω)即称为LPC谱。
共振峰频率上其频率响应特性会出现峰值。所以线性
预测分析法又可以看做是一种短时谱估计法。
)(1
)(
01
ωωω
ω
jp
i
ij
i
p
i
ij
i
j
eA
G
ea
G
ea
GeH ==
−
=
∑∑
=
−
=
−
3.6.3 LPC谱估计和LPC复倒谱
63
LPC谱特点:
在信号能量较大的区域即接近谱的峰值处,LPC谱和
信号谱很接近;而在信号能量较低的区域即接近谱
的谷底处,则相差比较大。
P的选取
如果p选得很大,误差小,而且极零模型也可以用全
极点模型来代替,但却增加了计算量和存储量,且p
增加到一定程度以后,预测平方误差的改善就很不
明显了,
在语音信号处理中,p一般选在8~14之间。
64
2.LPC复倒谱
LPC系数是线性预测分析的基本参数。LPC系数可以表示整
个LPC系统冲激响应的复倒谱。
设通过线性预测得到的系统函数为:
冲激响应
,设
是
复倒谱,有
代入并将其两边对
求导
1
1( )
1
p
i
i
i
H z
a z −
=
=
+ ∑
)(nh )(nh)(ˆ nh
∑∞
=
−==
1
)(ˆ)(ln)(ˆ
n
nznhzHzH
1−z
65
得到:
令左右两端的常数项和
的各次幂的系数相等,有
按上式求得的复倒谱h^(n)称之为LPC复倒谱。
0)0(ˆ =h
1)1(ˆ ah −=
)(,)(ˆ)/1()(ˆ
1
pnknhanknh
p
k
k >−−−= ∑
=
)1(,)(ˆ)/1()(ˆ
1
1
pnknhankanh
n
k
kn ≤≤−−−−= ∑−
=
1−z
66
LPC复倒谱特性
¾ 由于利用了线性预测中声道系统函数H(z)的最小相
位特性,避免了相位卷绕问题;
¾ LPC复倒谱的运算量小,它仅是用FFT求复倒谱时运
算量的一半;
¾ 因为当p→∞时,语音信号的短时复频谱S(ejω)满
足|S(ejω)|= |H(ejω)|,因而可以认为h^(n)包含了
语音信号频谱包络信息,即可近似把h^(n)当作s(n)
的短时复倒谱s^(n)。
用途:
估计出语音短时谱包络和声门激励参数。在实时语
音识别中也经常采用LPC复倒谱作为特征矢量。
67
线谱对分析也是一种线性预测分析方法,只是它求
解的模型参数是“线谱对”(Line Spectrum Pair,
简称为LSP),它是频域参数。
因而和语音信号谱包络的峰有着更紧密的联系;同
时它构成合成滤波器H(z)时容易保证其稳定性,合
成语音的数码率也比用格型法求解时要低。
线谱对参数 ,可通过系统线性预测系数{ai}
求出。
3.6.4 线谱对分析
ii θω ,
68
3.7 语音信号的
小波分析
小波变换
80 年代以来迅速发展起来的一门新兴科学。
虽然数学上它可追溯到(Joseph Fourier)傅立叶的频率分析,
它是
小波理论的基础。Haar 于 1909 年在论文中第一个提出“小
波”名词,他提出 Haar
小波基。Morlet 于 1984 年以理论形式
提出
小波概念。Meyer 开发出许多方法用作
小波分析。
小波已
成为数学家的领域,仅在最近时期它才被用到信号和图象处
理。主要推动
小波理论的发展和普及来源于 Daubechie 和
Mallat 的工作。
69
3.7.1 傅里叶变换
回顾:
可以清楚的了解
到信号的频率成分,
但不能确定某个频
率成分发生的时间
t
70
把信号划分成许多小的时间间隔,用傅立叶变换分析
每个时间间隔,以便确定该时间间隔存在的频率
短时傅立叶变换:
∫ +∞∞− Ω−−=Ω dtetgtfF tj)()(),( ττ
,
,
: ( ) ( ) ( )* ( ) ( ) ( )
( , ) ( ), ( )
( ) ( )
j t
j t
STFT f t g t F G f t g t e dt
STFT g t f t
g t g t e
τ
τ
τ
τ
τ
+∞ − Ω
−∞
Ω
− Ω
Ω
↔ Ω Ω = −
Ω =
= −
∫
3.7.2 短时傅里叶变换
71
。率时-频平面表示的分辨 cellSTFT
03Ω
τσ2
Ωσ2
0Ω
1τ 2τ t
STFT固定时间窗
g(t)带来固定的频率分
辨率。这是不定原理结
论,对于任一变换
对
2
1
)()(
≥
Ω↔
Ωσσ T
Gtg
72
对所有的频率都使用相同的窗,那么,如果窗
小了不利于低频成分分析,窗大了又不利于高频成
分。
如果能写出这样的窗函数,就可以很好的表示
信号的时间和频率定位, 解决了短时傅立叶变换所
遇到的问题。这里边隐含着
小波变换的基本思想。
t
73
定义:
小波变换的核是由基本
小波的
伸缩平移产生的
用a伸缩
小波函数的时间t,
相应的产生频域伸缩,
因此
小波变换提供可变的
时-频分辨率。
)()(
)()(),(
2/1
,
,
a
btat
dtttfbaCWT
ba
ba
−=
=
−
∞
∞−
∗∫
ψψ
ψ
3.7.3 连续
小波变换变换
74
Harr
4
)4(sin)(
0
1211
2101
)(
2
2
ω
ωωψψ ωjje
otherwise
t
t
t −=↔
⎪⎩
⎪⎨
⎧
<≤−
≤≤
1
0
1−
5.0 1 t
)(tψ )(ωψ
ω
20− 010− 10 20
75
1、离散
小波变换
离散
小波变换将伸缩和平移参数离散化
若令
称为二进
小波变换
)(1)(, a
bt
a
tba
−= ψψ
mm anbbaaa 0000 ,1, =>=
3.7.4 离散
小波变换变换
)()(1)( 00
2/
0
0
00
0
, nbtaaa
anbt
a
t mmm
m
mnm
−=−= −− ψψψ
1 ,2 00 == ba
)2(2)( 2/, ntt
mm
nm −= −− ψψ
76
2 Mallat
算法
1988年,Mallat
基于多分辨率分析的框架,建立了小
波的快速算法。
分解:
重构
过程:
3.7.4 离散
小波变换变换
77
Noissin信号
的周期性判别
)(1)(, a
bt
a
tba
−= ψψ
∫+∞∞−== dtttfbaWbaCWT baf )()(),(),( *,ψ
)()( 2 RLtf ∈Rb∈
3.7.5
小波变换的例子
78
音基音检测
)(1)(, a
bt
a
tba
−= ψψ
)()( 2 RLtf ∈Rb∈
3.7.5
小波变换的例子
79
3.8 基音周期估计
基音是指发浊音时声带振动所引起的周期性,而
基音周期是指声带振动频率的倒数。基音周期是
语音信号最重要的参数之一,它描述了语音激励
源的一个重要特征。
应用
语音识别、说话人识别、语音分析与综合以及低
码率语音编码、发音系统疾病诊断、听觉残障者
的语言指导等。
80
基音检测的