2006牟第1期
中图分类号:TN9l2.3 文献标识码 :A 文章编号:1009—2552(2006)01~【x】91—04
基于声音信号的特征提取方法的研究
李宏松,苏健民,黄英来,于慧伶
(东北林业大学,哈尔滨 150040)
摘 要:主要介绍了利用MATLAB语言对声音文件的采集、调入和一些基本处理方法,对预处
理过程及特征参数的选取做了详细的说明,并着重介绍了线性预测系数 (LPC)及其倒谱系数
(LPCC)和梅尔频率倒谱系数 (MFCC),且对它们进行了比较。
关键词:语音识别;特征提取;信号采集;LPCC;MFCC
The research on characteristics extraction based on voice signal
LI Hong—song,SU Jian—min,HUANG Ying—lai,YU}lui—ling
(Northeast Forestry University,Harbin 150040,China)
Abstract:This thesis not only introduces some basic processing methods of collecting and loading voice mes--
sages using MATLAB language,also explains the choice of operation processes and characteristic parameter in
detail.And this paper also mainly gives a clear explanation of LPC,LPCC and MFCC and makes a contrast
between them.
Key words:vdice recognition;characteristics extraction;signal collection;LPCC;MFCC
0 引言
语音识别是以声音为研究对象,它是语音信号处
理的一个重要研究方向。是模式识别的一个分支,涉
及到生理学、心理学、语言学、计算机科学以及信号处
理等诸多领域,甚至还涉及到人的体态语言(如人在
说话时的表情、手势等行为动作可帮助对方理解),其
最终目标是实现人与机器进行自然语言通信⋯。
语音识别的一个根本问题是合理的选用特征。
选择的标准应体现对于异字音,相应特征间的距离
应大,而对于同字音,彼此间距离应小。若以前者距
离与后者距离之比作为优化准则用的“目标量”_2 J,
则应使此量最大。
浯音信号的特征向量一般分为两类:第一类为
时域特征向量。通常将帧语音信号的各个时域采样
值直接构成一个向量。第二类为变换域特征向量,
即对一帧语音信号进行某种变换后产生的特征向
最。前者的优点在于计算简单,缺点是不能压缩维
数且不适于表征幅度谱特性。与此对应,各种变换
域特征向量的计算比较复杂,但能从不同的角度反
映幅度谱的特征。
1 语音识别原理
I璺l 1 语晋识别 的原理框 图
语音识别本质上是一种模式识别的过程,其基
本结构原理框图如图 1所示,主要包括语音信号预
处理、特征提取、特征建模(建立参考模式库)、模式
匹配等几个功能模块。
一 个语音识别系统主要包括训练和识别两个阶
段。无论是训练还是识别,都需要首先对输入的原
始语音进行预处理,并进行特征提取。
收稿 日期 :2005—09—06
作者简介:李卫:松.男,尔北林- 大学倩息与计算机工程学院本
科,I
一 9l 一
维普资讯 http://www.cqvip.com
2 声音采集方法
[采样定理]被分析的信号必须有一个截止频
率,采样频率必须大于信号截频的2倍。
声音的获取,硬件设备可以利用 Pc机和声卡
来采集,并可以由声卡实现滤波和 A/D转换过程。
录制方法可以由Windows自带的录音机录制或其它
录音工具来录制后储存到硬盘,也可以由软件编写
录音程序来实现。介绍两种基于 MATLAB实现语
音采集的方法:
(1)由 Windows录音机预先录制的声音文件
(*.way),再由MATLAB语言调入,其调入语句为:
wavread(‘d:\你好.way’);
此语句的功能是调入保存在 d盘根目录下的
“你好”语音文件,并将其转换为 MATLAB数据类
型,然后对其进行分析。
(2)由 MATLAB语言直接通过 Windows的音频
设备实现录音功能,并将采样结果转换为 MATLAB
数据类型,其录音语句为:
Fs=ll025
X=wawecord(5*Fs,F8,‘double’);
此代码是通过Windows的录音设备用单通道,
11025Hz的采样频率录制 5秒的数据,采样精度为
l6位,存储
为双精度型。通过以上语句调入或
录制后,就可以在MATI_AB语言中进行下一步的数
据处理工作。
3 预处理分析
语音信号特征的提取如图2所示,在特征提取
部分以前为声音信号预处理过程,主要包括 A/D转
换、去噪、端点检测、预加重、分帧和加窗等计算。
陶 2 声音特 提收过程 I刳
3.1 放大、滤波、A/D转换
这部分采用 Windows自带的音频设备及 MAT.
LAB语言即可实现,其采样频率可以自由设定;如
J 1025Hz或 22050Hz等,精度为 16bit。
PC机的声卡可以完成放大和滤波的反混叠过
程,并可以完成 A/D转换过程。
3.2 预加重
预加重是一阶网络,用来对声音信号的高频部
一 92 一
分进行加重,以增强声音的高频分辨率,可由软件来
实现,表示为:
数字信号s(n)通过一个高通滤波器,
H(:)=1一aZ (0.9
公式为:
左(0)=0 (n 0)
h(1)=a1
h.1
( )=n +∑(1一k/n)a^ (n一|l})
1
(1 rt s P)
p
(n)=∑(1一kin)n 盂(n一|l})
1
(rt>P)
其中口 为LPC系数,而P为其阶数,一般 LPC倒谱
系数的阶数一般取8—32阶就可以比较好的表征声
道特征。
4.2 Mel频率倒谱系数(MFCC)
如图3所示,由于语音信号在时域上的变化快
速而不稳定,所以通常都将它转换到频域上来观察,
此时它的频谱会随着时间作缓慢的变化。所以通常
将加窗后的帧经过快速傅立叶变换( ),求出每
帧的频谱参数。再将每帧的频谱参数通过一组 Ⅳ
个(Ⅳ一般为 20—3O个)三角形带通滤波器所组成
的梅尔频率滤波器,将每个频带的输出取对数,求出
每一个输出的对数能量(1og energy)Ek,k=1,2⋯ .
Ⅳ。再将此Ⅳ个参数进行余弦变换(cosine transform)
求出L阶的Mel—scale cepstmm参数。
图 3 Mel倒频谱特征参数提取流程图
余弦转换公式如下:
Cm :耋 。 (m( 一 )焉) 2,⋯
上而用 MFCC进行特征提取方法,用 MATLAB
语言书写程序如下,图4为 Mel刻度滤波器组。
f=fit(s);
x=melbankm(24,256,8o()o); -
n2=l+floor(n/2):
z=iof(X*abs(f(1:n2)).^2);
c=dot(z); 。
C(1)=[];
一 93 —
维普资讯 http://www.cqvip.com
4 6
} ●
_
f
图4 Mel刻度滤波器纰
5 结论分析
根据以上提取和分析的过程,可以得出结论:
(1)在语音特征的提取中,预加重和汉明窗两部
分是必不可少的,其参数的选取关系决定了提取语
音特征的正确与否。
(2)LPC是语音分析的重要手段,它能很好地进
行谱估计,即可作为语音特征的参数。因此仅用 l2
个LPC系数就能很好地表示复杂语音信号的特征,
这就大大降低了信号的冗余度并有效地减少了计算
量和存储量,使之成为语音识别和语音压缩的基础。
(3)倒谱也是语音的特征参数,是研究系统特性
的有效数据,在实际运作中大多数语音识别系统都
会采用倒谱参数来作为有关距离的度量。LPC倒谱
系数是描述说话人声道特性的 J,广泛应用于声纹
识别。
(4)从目前使用的情况来看,Mel刻度式倒频谱
参数是描述人耳听觉特性的L6],在大词汇量语音识
别应用中已逐渐取代原本常用的线性预测编码导出
的倒频谱参数,原因是它考虑了人类发声与接收声
音的特性,具有更好的鲁棒性。
参 考 文献:
[1] 陈方。高升.语音识别技术及发展[J].电信科学,1996,12(1O):
54—57,
[2] 易克初,等.语音信号处理[M].国防工业出版社,2000。
[3] 杨行峻,等.语音信号数字处理[M].电子工业出版社,1995.
[4] 胡光锐.语音处理与识别[M].上海科技文献出版社,1994.
[5] 何强。何英.MATI_AB扩展编程【M].清华大学出版社,2002.
[6] 粱维谦。等.应用于语音识别片上系统的语音检测算法[J].电
路与系统学报。2003。8(2):66—79.
责任编辑:李光辉
2006:调整是 IT产业发展主旋律
2006年,传统电子企业进入转型热潮期,在调整中继续前进将是全球 Ⅱ产业发展的主旋律。
2005年,以日韩及中国企业为代表的消费类电子企业利润纷纷下滑,将迫使传统电子企业进行经营战
略的转型、组织结构的变革和生产流程的重组等,转型最为明显的举措就是对传统电子业务的抛弃。三洋
计划出售其金融业务和OLED业务,并将停止在日本销售电视机。同样,索尼也将缩减传统业务——家电、
电脑等亏损部门的规模,并全力往游戏、娱乐、高画质三个方向发展。同时,苹果将进入手机领域,摩托罗拉
进人数字电视领域。产业有退有进,优化资源,有助于企业在 2006年陆续恢复隐定。历经修整阶段后,追寻
高附加值产品研发制造的消费类电子企业预计在2006年至2008年将回归快速增长。
消费电子市场用户推崇多功能产品,用户将更顷向于多功能的集成产品,如具备拍照及日程安排功能
的手机等。预计2006年美国消费类电子市场将突破 1400亿美元,欧洲将达到 1000亿美元,中国将突破600
亿美元,由此将带动相关上下游行业快速发展,未来3年全球半导体产业将一路走高。美国半导体产业协会
(SIA)预测,2006年全球半导体市场将增长7.9%%,达2455亿美元;2007年将增长l0.5%,预计达2713亿美
元;2008年将增长13.9%。
伴随消费类电子产品需求的上升以及I)C与移动电话的换机潮,2006年世界 rI’产业仍然是局部调整与
总体增长并存,许多跨国公司将进行自身业务的重组和调整,同时 IrI.技术将不断创新,技术应用广泛深入推
进,3C融合加快、多功能额产品不断进入市场,如英特尔将推出移动版双内核处理器,微软将推出新版本的
Office软件。平板电视将继续蚕食CRT市场,手机电视和移动电视市场将呈爆炸性增长。2006年,全球手机
用户将达到20亿部,手机销售量将突破8亿部,其中可拍照手机将达到3亿部,3G手机将突破 l亿部大关。
全球PC销售量将达到2.2亿台,其中笔记本电脑将突破7500万台。互联网将依旧繁荣,Google等继续引领
互联网全球化潮流,触角将伸向更多领域。
- -— — 94 ---——
L L L a a a n
维普资讯 http://www.cqvip.com