为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于声音信号的特征提取方法的研究

2011-12-03 4页 pdf 283KB 67阅读

用户头像

is_886625

暂无简介

举报
基于声音信号的特征提取方法的研究 2006牟第1期 中图分类号:TN9l2.3 文献标识码 :A 文章编号:1009—2552(2006)01~【x】91—04 基于声音信号的特征提取方法的研究 李宏松,苏健民,黄英来,于慧伶 (东北林业大学,哈尔滨 150040) 摘 要:主要介绍了利用MATLAB语言对声音文件的采集、调入和一些基本处理方法,对预处 理过程及特征参数的选取做了详细的说明,并着重介绍了线性预测系数 (LPC)及其倒谱系数 (LPCC)和梅尔频率倒谱系数 (MFCC),且对它们进行了比较。 关键词:语音识别;特征提取;...
基于声音信号的特征提取方法的研究
2006牟第1期 中图分类号:TN9l2.3 文献标识码 :A 文章编号:1009—2552(2006)01~【x】91—04 基于声音信号的特征提取方法的研究 李宏松,苏健民,黄英来,于慧伶 (东北林业大学,哈尔滨 150040) 摘 要:主要介绍了利用MATLAB语言对声音文件的采集、调入和一些基本处理方法,对预处 理过程及特征参数的选取做了详细的说明,并着重介绍了线性预测系数 (LPC)及其倒谱系数 (LPCC)和梅尔频率倒谱系数 (MFCC),且对它们进行了比较。 关键词:语音识别;特征提取;信号采集;LPCC;MFCC The research on characteristics extraction based on voice signal LI Hong—song,SU Jian—min,HUANG Ying—lai,YU}lui—ling (Northeast Forestry University,Harbin 150040,China) Abstract:This thesis not only introduces some basic processing methods of collecting and loading voice mes-- sages using MATLAB language,also explains the choice of operation processes and characteristic parameter in detail.And this paper also mainly gives a clear explanation of LPC,LPCC and MFCC and makes a contrast between them. Key words:vdice recognition;characteristics extraction;signal collection;LPCC;MFCC 0 引言 语音识别是以声音为研究对象,它是语音信号处 理的一个重要研究方向。是模式识别的一个分支,涉 及到生理学、心理学、语言学、计算机科学以及信号处 理等诸多领域,甚至还涉及到人的体态语言(如人在 说话时的情、手势等行为动作可帮助对方理解),其 最终目标是实现人与机器进行自然语言通信⋯。 语音识别的一个根本问是合理的选用特征。 选择的标准应体现对于异字音,相应特征间的距离 应大,而对于同字音,彼此间距离应小。若以前者距 离与后者距离之比作为优化准则用的“目标量”_2 J, 则应使此量最大。 浯音信号的特征向量一般分为两类:第一类为 时域特征向量。通常将帧语音信号的各个时域采样 值直接构成一个向量。第二类为变换域特征向量, 即对一帧语音信号进行某种变换后产生的特征向 最。前者的优点在于计算简单,缺点是不能压缩维 数且不适于表征幅度谱特性。与此对应,各种变换 域特征向量的计算比较复杂,但能从不同的角度反 映幅度谱的特征。 1 语音识别原理 I璺l 1 语晋识别 的原理框 图 语音识别本质上是一种模式识别的过程,其基 本结构原理框图如图 1所示,主要包括语音信号预 处理、特征提取、特征建模(建立参考模式库)、模式 匹配等几个功能模块。 一 个语音识别系统主要包括训练和识别两个阶 段。无论是训练还是识别,都需要首先对输入的原 始语音进行预处理,并进行特征提取。 收稿 日期 :2005—09—06 作者简介:李卫:松.男,尔北林- 大学倩息与计算机工程学院本 科,I 一 9l 一 维普资讯 http://www.cqvip.com 2 声音采集方法 [采样定理]被分析的信号必须有一个截止频 率,采样频率必须大于信号截频的2倍。 声音的获取,硬件设备可以利用 Pc机和声卡 来采集,并可以由声卡实现滤波和 A/D转换过程。 录制方法可以由Windows自带的录音机录制或其它 录音工具来录制后储存到硬盘,也可以由软件编写 录音程序来实现。介绍两种基于 MATLAB实现语 音采集的方法: (1)由 Windows录音机预先录制的声音文件 (*.way),再由MATLAB语言调入,其调入语句为: wavread(‘d:\你好.way’); 此语句的功能是调入保存在 d盘根目录下的 “你好”语音文件,并将其转换为 MATLAB数据类 型,然后对其进行分析。 (2)由 MATLAB语言直接通过 Windows的音频 设备实现录音功能,并将采样结果转换为 MATLAB 数据类型,其录音语句为: Fs=ll025 X=wawecord(5*Fs,F8,‘double’); 此代码是通过Windows的录音设备用单通道, 11025Hz的采样频率录制 5秒的数据,采样精度为 l6位,存储格式为双精度型。通过以上语句调入或 录制后,就可以在MATI_AB语言中进行下一步的数 据处理工作。 3 预处理分析 语音信号特征的提取如图2所示,在特征提取 部分以前为声音信号预处理过程,主要包括 A/D转 换、去噪、端点检测、预加重、分帧和加窗等计算。 陶 2 声音特 提收过程 I刳 3.1 放大、滤波、A/D转换 这部分采用 Windows自带的音频设备及 MAT. LAB语言即可实现,其采样频率可以自由设定;如 J 1025Hz或 22050Hz等,精度为 16bit。 PC机的声卡可以完成放大和滤波的反混叠过 程,并可以完成 A/D转换过程。 3.2 预加重 预加重是一阶网络,用来对声音信号的高频部 一 92 一 分进行加重,以增强声音的高频分辨率,可由软件来 实现,表示为: 数字信号s(n)通过一个高通滤波器, H(:)=1一aZ (0.9P) 其中口 为LPC系数,而P为其阶数,一般 LPC倒谱 系数的阶数一般取8—32阶就可以比较好的表征声 道特征。 4.2 Mel频率倒谱系数(MFCC) 如图3所示,由于语音信号在时域上的变化快 速而不稳定,所以通常都将它转换到频域上来观察, 此时它的频谱会随着时间作缓慢的变化。所以通常 将加窗后的帧经过快速傅立叶变换( ),求出每 帧的频谱参数。再将每帧的频谱参数通过一组 Ⅳ 个(Ⅳ一般为 20—3O个)三角形带通滤波器所组成 的梅尔频率滤波器,将每个频带的输出取对数,求出 每一个输出的对数能量(1og energy)Ek,k=1,2⋯ . Ⅳ。再将此Ⅳ个参数进行余弦变换(cosine transform) 求出L阶的Mel—scale cepstmm参数。 图 3 Mel倒频谱特征参数提取流程图 余弦转换公式如下: Cm :耋 。 (m( 一 )焉) 2,⋯ 上而用 MFCC进行特征提取方法,用 MATLAB 语言书写程序如下,图4为 Mel刻度滤波器组。 f=fit(s); x=melbankm(24,256,8o()o); - n2=l+floor(n/2): z=iof(X*abs(f(1:n2)).^2); c=dot(z); 。 C(1)=[]; 一 93 — 维普资讯 http://www.cqvip.com 4 6 } ● _ f 图4 Mel刻度滤波器纰 5 结论分析 根据以上提取和分析的过程,可以得出结论: (1)在语音特征的提取中,预加重和汉明窗两部 分是必不可少的,其参数的选取关系决定了提取语 音特征的正确与否。 (2)LPC是语音分析的重要手段,它能很好地进 行谱估计,即可作为语音特征的参数。因此仅用 l2 个LPC系数就能很好地表示复杂语音信号的特征, 这就大大降低了信号的冗余度并有效地减少了计算 量和存储量,使之成为语音识别和语音压缩的基础。 (3)倒谱也是语音的特征参数,是研究系统特性 的有效数据,在实际运作中大多数语音识别系统都 会采用倒谱参数来作为有关距离的度量。LPC倒谱 系数是描述说话人声道特性的 J,广泛应用于声纹 识别。 (4)从目前使用的情况来看,Mel刻度式倒频谱 参数是描述人耳听觉特性的L6],在大词汇量语音识 别应用中已逐渐取代原本常用的线性预测编码导出 的倒频谱参数,原因是它考虑了人类发声与接收声 音的特性,具有更好的鲁棒性。 参 考 文献: [1] 陈方。高升.语音识别技术及发展[J].电信科学,1996,12(1O): 54—57, [2] 易克初,等.语音信号处理[M].国防工业出版社,2000。 [3] 杨行峻,等.语音信号数字处理[M].电子工业出版社,1995. [4] 胡光锐.语音处理与识别[M].上海科技文献出版社,1994. [5] 何强。何英.MATI_AB扩展编程【M].清华大学出版社,2002. [6] 粱维谦。等.应用于语音识别片上系统的语音检测算法[J].电 路与系统学报。2003。8(2):66—79. 责任编辑:李光辉 2006:调整是 IT产业发展主旋律 2006年,传统电子企业进入转型热潮期,在调整中继续前进将是全球 Ⅱ产业发展的主旋律。 2005年,以日韩及中国企业为代表的消费类电子企业利润纷纷下滑,将迫使传统电子企业进行经营战 略的转型、组织结构的变革和生产流程的重组等,转型最为明显的举措就是对传统电子业务的抛弃。三洋 出售其金融业务和OLED业务,并将停止在日本销售电视机。同样,索尼也将缩减传统业务——家电、 电脑等亏损部门的规模,并全力往游戏、娱乐、高画质三个方向发展。同时,苹果将进入手机领域,摩托罗拉 进人数字电视领域。产业有退有进,优化资源,有助于企业在 2006年陆续恢复隐定。历经修整阶段后,追寻 高附加值产品研发制造的消费类电子企业预计在2006年至2008年将回归快速增长。 消费电子市场用户推崇多功能产品,用户将更顷向于多功能的集成产品,如具备拍照及日程安排功能 的手机等。预计2006年美国消费类电子市场将突破 1400亿美元,欧洲将达到 1000亿美元,中国将突破600 亿美元,由此将带动相关上下游行业快速发展,未来3年全球半导体产业将一路走高。美国半导体产业协会 (SIA)预测,2006年全球半导体市场将增长7.9%%,达2455亿美元;2007年将增长l0.5%,预计达2713亿美 元;2008年将增长13.9%。 伴随消费类电子产品需求的上升以及I)C与移动电话的换机潮,2006年世界 rI’产业仍然是局部调整与 总体增长并存,许多跨国公司将进行自身业务的重组和调整,同时 IrI.技术将不断创新,技术应用广泛深入推 进,3C融合加快、多功能额产品不断进入市场,如英特尔将推出移动版双内核处理器,微软将推出新版本的 Office软件。平板电视将继续蚕食CRT市场,手机电视和移动电视市场将呈爆炸性增长。2006年,全球手机 用户将达到20亿部,手机销售量将突破8亿部,其中可拍照手机将达到3亿部,3G手机将突破 l亿部大关。 全球PC销售量将达到2.2亿台,其中笔记本电脑将突破7500万台。互联网将依旧繁荣,Google等继续引领 互联网全球化潮流,触角将伸向更多领域。 - -— — 94 ---—— L L L a a a n 维普资讯 http://www.cqvip.com
/
本文档为【基于声音信号的特征提取方法的研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索