孤立词语音识别系统的MATLAB实现
孤立词语音识别系统的MATLAB实现 模式识别中文核心期刊《=微计算机信息》(测控自动化)2007年第23卷第3.1期 文章编号:1008-0570(2007)03—1—0288-02
孤立词语音识别系统的MATLAB实现
TheMATLABRealizationofIsolated-wordSpeechRecognition
(湖南大学)杨熙苏娟彭勇群
YANGXISUJUANPENGYONGQUN
摘要:本文建立了一个孤立词语音识别系统,并利用MATLAB的语音_T-具箱voicebox对系统进行了仿真和分析.实验结果
明,对2O个孤立词的非特定人识别,准确率在95%左右.
关键词:孤立词;M_ATLAB;语音识别
中图分类号:TP391.42文献标识码:A
争
Abstract:Thisarticlehasestablishedallisolated-wordspeechrecognitionsystem,andhascar
riedonthesimulationandanalysisUS- ingMATLABpronunciationtoolboxvoiceboxtothesystem.Experimentsshowthattherateo
faccuracyisabout95%with20isolat- edwordsofspeaker—independentpronunciation. Keywords:isolated-word;MATLAB;speechrecognition
1引言
MATLAB1:~强大的计算和绘图功能着称,除此之外,还具有
易扩性,如语音处理工具箱voicebox就是由第三方软件开发者
免费提供的.
2系统设计
语音识别的基本流程如图1所示:
图1语音识别系统框图
从图1可知,整个语音识别系统包括四部分:预处理,特征
参数提取,训练和识别.其中预处理包括加重和端点检测.预加 重一般通过一个数字滤波器1一z.来实现,值接近于l. 2.1端点检测
端点检测就是从一段信号中检测出语音信号的起始点和 结束点.这里采用基于短时能量和过零率的端点检测算法.这 种算法不是实时的,是先读取录制好的wav文件,获取信号后 再将其分帧并计算短时能量和过零率参数.
(f)=羔I(,z)l语音信号第i帧的短时能量
卫
zcn(i)=(,z)一+1)l语音信号第i帧的过零率
l
为了处理方便,可先将语音信号进行幅度归一化.用命令 x=x/max(abs(x))~可实现.图2为孤立词"关机"的端点检测结果. 从图2能看出,端点检测比较准确,这有利于后面的参数提取 等进一步处理.
2.2特征参数提取
杨熙:硕士
图2语音端点检测
常用的参数有线性预测的倒谱系数(LPCC)和Mel频率的倒 谱系数(MFCC)[I].LPCC参数是一种基于合成的参数,而MFCC 参数考虑了人耳的听觉特性.且没有任何前提假设.大量实验 表明.MFCC参数的性能优于LPCC参数.图3给出了女声"关 机"孤立词的LPCC参数和MFCC参数的仿真结果. 图3"关机"孤立词的特征提取
图3中仿真用的参数都是24维(加上了一阶差分)的语音 一
288—360元,年邮局订阅号:82.946
模式识别
特征参数向量.本系统采用MFCC系数,24个滤波器. 2.3训练和识别——离散马尔科夫模~(DHMM1 HMM模型是一种统计模型,一般分为连续HMM(CHMM) 和离散HMM(DHMM).前者的识别率比较高,DHMM略低些. 但前者的高识别率是以运算量的增加为代价的,而DHMM的 模型参数少,对训练数据量要求不高,且计算量少,易于实现, 所以这里采用DHMM.一个DHMM系统可用1r,A,B三项参数 来描述.
2.3.1VQ一码本的设定
在DHMM语音识别系统的训练,识别和CHMM语音识别 系统的训练中,都要用到矢量量化Q).vq的关键技术包括码 本设计和搜索策略两方面.
生成码本最基本的算法是LBG算法.在利用LBG算法之 前,首先需要得到一个初始码本,采取的方法是分裂法.码本大 小为128,27=128,所以经过7次分裂就可以了.
对于码本搜索,简单的方法是比较所有码字和输入矢量的 距离,距离最小的便是目标码字,这种搜索方法称为"全搜索". 由于本文是进行孤立词识别,因此选择全搜索算法. 这里说一下的是,在实践中,经常会出现空胞腔,这对后面 的计算是有害的.避免产生空胞腔的一种方法是在分裂生成码 本的算法中,每次挑最大的胞腔,将其一分为二.也有直接舍去 空胞腔的做法
2.3.2DHMM模型初始参数的设定
考虑语音信号的时序特点和系统的实时性,选用自左向右 的无跨越HMM.对于模型状态数的选择,状态数太多,则计算 量太大;太少,又得不到较好的识别效果.在很多汉语识别实验 中,状态数为5时,识别的效果最好,本文选取状态数为5. 初始概率矩阵1r的初值较易确定,通常设置为均匀分布之 值或非零的随机数,对识别率的影响不是太大.
=
{l,0,0,0,0}
无跨越自左向右的模型,状态转移矩阵A比较稀疏.当 为状态数的倒数时,可得到最好的结果.
A=
0.80.20
000.8
000
000
000
000
0.200
0.80.20
00.80.2
00l
对DHMM等简单的情况,B的设置较容易,可采取均匀或 随机的设置每一字符的概率初值.码书大小为128. B=
1/1281/128…1/128
1/1281/128...1/128
1/1281/128…1/128
1/1281/128...1/128
1/1281/128...1/128
2.3.3
的训练
设定DHMM模型的初始参数后,就可以进行语音模板的 训练.由于有大量观察序列参与训练,在此,采用修正后的 Baum—Welch算法进行参数的优化重估.
收敛条件控制着何时结束训练过程.有两种判定方法可以 决定模板的HMM参数模型是否达到局部最优.一种是前后两 次的输出概率的差值小于一定阀值或模型参数几乎不变为止;
另一种是采用固定训练次数的办法.'
2.3.3语音的识别
识别过程其实就是模板的匹配过程,而匹配的过程就是利 用对数形式的Viterbi算法,计算测试语音序列在每个HMM下 的最大输出概率.取输出概率最大的HMM对应的模型,即为最 后的输出结果.
图4"关机"孤立词的识别
图4的界面是在MATLAB里面做的.坐标轴里的波形是 "关机"的语音波形.
所有的语音数据都是在普通环境下录制,以.wav文件的格 式存储.采样频率8kHz,16位采样,32ms一帧,帧移为16ms.语 音库分为训练集和测试集两部分.训练集包括32人语音数据 (16男16女),20个普通命令词(2—3个词)组成,每个人发6遍 音,用于训练码本和DHMM模型;测试集包括16人(男8人(4 人参加过训练),女8人(4人参加过训练))的语音数据.男生和 女生的平均正确识别率都在95%左右.
3结束语
对于一个适应性强的语音系统,一般会加语音增强等环 节,还会有自适应等功能,也可以采用更好的端点检测算法[6】. 本文中的系统比较简单,主要注重用MA,I'IB来分析和仿真. 本文作者创新点:尝试设计MATLAB环境下的一个完整的 孤立词语音识别系统.并用MATLAB进行了仿真和分析.展示 了MATLAB软件应用于语音处理中的优越性,利用此软件,能 方便验证系统算法的正确性及整体性能,有利于成功移植整个 系统到DSP等嵌入式硬件上,实现系统的实际应用. 参考文献:
[1]何强,何英.MATLAB扩展编程[M].北京:清华大学出版社, 2oo2.
[2】杨行峻,迟惠生.语音信号数字处理[M】.北京:电子工业出版
社,1995.
【3】赵力.语音信号处理【M].北京:机械工业出版社,2003. [4]王志飞.小词汇量非特定人孤立词语音识别的FPGA实现 [D].大连:大连理工大学,2005.
[5】R.L.Joshieta1.AnewMMSEencodingalgorithmforVector
Quantization.ICASSP.1991.1:645-648. [6】江官星,王建英.一种改进的检测语音端点的方法[J】微计算机 信息,2005,5(1):138—139转第310页)
@嗽隔邮局订82360..~/#-9一
软件天地中文核心期刊<微计算机信息>(测控自动化)2007年第23卷第3-1期
5结论
很多研究只从同一个家族来比较常温蛋白质和高温蛋白
质的差别,他们认为不同的家族蛋白质有不同的特性.而作者 认为不管是何种蛋白质只要是耐热的.它们在某一方面就有相 同的特性,共性的特性使它们都具有耐高温的特点.从预测率 可以看出蛋白质一级结构对蛋白质耐热性的影响最大.
尽管耐热微生物是获得热稳定蛋白质的主要来源.但对于
那些不能在嗜热微生物中发现的酶类.单点突变和基因敲除可 以将常温酶改造为耐热酶,在实验之前可以利用贝叶斯方法进 行预测,既可以缩短试验成本又可以节省时间.
本文作者创新点:(1)研究对象是具有全基因组生物的蛋白
质,所得到的结论更具有说服力;(2)利用贝叶斯这种方法进行蛋 白质耐热性的研究;(3)以氨基酸含量作为输入的特征向量,这样 预测率不仅反映贝叶斯方法是否适合蛋白质耐热性预测.而且 可以验证氨基酸含量是蛋白质耐热的主要影响因素的结论. 参考文献:
【1]KarshikoffA,LadensteinR.Ionpairsandthethermotolerance
ofproteinsfromhyperthermophilies:a'trafficrule'forhotroads.
TrendsBiochemSci,2001,26f9):550-556.
[2]KumarS,TsaiCJ,NussinovR.Factorsenhancingproteint}le卜
mostability[J].ProteinEng,2000,3(3):179—191.
[3]VieilleC,ZeikusGJ.Hyperthermophilicenzymes:sources,us- es,andmolecularmechanismsforthermostabihty[J].MicmbiolMol BiolRev,2001,65(1):1-43.
[4】郑启鹏李秀刘文煌李兵.支持向量机在银行贷款客户分类
中的应用研究【J]微计算机信息,2005,33:68—70.
[5】刘安斐李弼程.一种新的ART网络遥感影像分类方法【J]微计
算机信息,2005,31:96-97,123.
[6]GuSD,NieSD,ChenY,eta1.Applicationstudyofsegmenta—
tionalgorithmofheadMRIbasedonKonearestNeighborrule[J].J ShanghaiMedUniv,2000,27(2):108-112.
[7]TatusovRL'KooninEV,LipmanDJ.Agenomicperspective onproteinfamilies[J].Science,1997,24;278(5338):631—637.
【8]TatusovRL'GalperinMY,NataleDA,eta1.TheCOG database:atoolforgenome—scaleanalysisofproteinfunctionsand evolution[J].NucleicAcidsRes,2000,1,28(1):33—36.
[9]TatusovRLNataleDA,GarkavtsevIV,eta1.TheCOG database:newdevelopmentinphylogeneticclassificationofpm—
teinsfromcompletegenomes[J].NucleicAcidsRes,2001,1,29(1): 22-28.
[10]BermanHM,WestbrookJ,FengZ,eta1.TheProteinData Bank[j].NucleicAcidsRes,2000,1,28(1):235-242. 『l1]LiP,LiXM,TanJL'eta1.Non—destructiveclassificationto microstructurein20steelhightemperatureagedbasedon Bayesianl刀.Petro—chemicalequipment,2004,33(4):8-10. [12】黄捷彭宏林嘉宜.一种新的正态分布实例的贝叶斯分类算
法【J].华南理工大学(自然科学版),2001,29(12):47-49.
『13]ParkKJ,KanehisaM.Predictionofproteinsubcellularloca—
tionsbysupportvectormachinesusingcompositionsofamino acidsandaminoacidpairs[J】.Bioinformatics,2003,l,19(13): l656-1663.
[14]YanoJK,PoulosTL.Newunderstandingsofthermostableand peizostableenzymes【J].CurrOpinBiotechnol,2003,14(4):360—
365.
作者简介:丁彦蕊(1976一),女,山东青岛人,讲师,博士,主要从
事生物信息学,人工智能方面的研究;蔡字杰(1973_),男,江苏无
锡人,副教授,博士,主要从事色谱分离,发酵工程方面的研究:
孙俊(1971-),男,江苏无锡人,讲师,副教授,主要从事人工智能
优化;须文波(1946一),男,江苏无锡人,教授,博士生导师,主要从
事生物信息学及系统控制方面的研究.
Biography:DingYanrui(1976一),female,Qingd80Shandong
province,lecturer,thedoctor,isengagedinbioinformaticsand artificialinteHigence;CaiYujie(1973一),male,Wu】【iJiangsu
province,associateprofessor,thedoctor,isengagedinseparat- inginchromatogramandinresearchoffermentation;SunJun (1971一),male,WJiangsuprovince,lecturer,isengagedin artificialintelligence;XuWenbo(1946一),male,WIl】【iJiangsu
province,professor,doctoralsupervisor,isengagedinthere—
searchofbioinformaticsandsystematiccontrolmainly. (214122江苏无锡江南大学信息工程学院)丁彦蕊孙俊
须文波
(214036江苏无锡江南大学工业生物技术教育部重点实验
室)丁彦蕊蔡宇杰
(214036江南江南大学生物工程学院)蔡宇杰
(Schoolofinformationtechnology,SouthernYangtzUniversi- ty,JiangsuWuxi214122,China)DingYan-rniSunJun XuWen-Bo
(KeyLaboratoryofIndustrialBiotechnology.JiangsuWuxi 214036,China)DhlgYan-rniCaiYu-jie
(Schoolofbiotechnology,JiangsuWuxi214036,China)Cai Yu-jie
通讯地址:(214122江苏江苏省无锡市蠡湖大道1800号)丁彦蕊
(收稿日期:2007.1.12)(修稿日期:2007.2.15)
(上接第289页)
作者简介:杨熙(1982_),女,湖南长沙人,硕士,主要研究方向:语
音增强,语音识别;苏娟,湖南大学电子与信息工程学院,副教
授,硕士生导师,主要研究方向:单片机,嵌入式系统,语音识别
等;彭勇群,硕士,主要研究方向:DSP应用,语音识别.
Biography:YANGXi(1982一),master,majorinspeechrecogni—
tionandspeechenhancement;SUJuan,associateprofessor.mas. tertutor,majorinmicroprocessor,embeddedsystemandspeech recognition;PENGYongqun,master,majorintheapplicationof DSPandspeechrecognition.
(410082湖南长沙湖南大学电气与信息工程学院)杨熙苏娟
彭勇群
(InstituteofElectronics&InformationEngineering.Hunan University,Changsha410082,China)YANGXi,SUJuan. PENGYongqun
通讯地址:(410082湖南湖南长沙湖南大学l8舍406-5)杨熙
(收稿日期:2007.1.12)(修稿日期:2007.2.15)
一
310—360元,年邮局订阅号:82.946