为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于隐马尔可夫模型的咳嗽声识别研究_魏栋

2014-01-05 6页 pdf 1MB 14阅读

用户头像

is_062217

暂无简介

举报
基于隐马尔可夫模型的咳嗽声识别研究_魏栋 基于隐马尔可夫模型的咳嗽声识别研究 魏栋1,陈纪赞1,田联房1,郑则广2,陈荣昌2,毛宗源1 (1. 华南理工大学,广州 510641; 2. 广州医学院,广州 510120) 摘要 本文通过对咳嗽声特性的分析,首先利用 短时过零率和短时能量对咳嗽声进行端点初步检 测,然后提取咳嗽的 Mel 频率倒谱系数作为特征 参数,使用隐马尔可夫模型进行训练,建立咳嗽 模板库。对所获得的 234 个样本进行训练和测试 性识别,其中 78 个为训练样本,两组咳嗽测试样 本和两组声音测试样本各为39个,识别系统把测 试组咳嗽正...
基于隐马尔可夫模型的咳嗽声识别研究_魏栋
基于隐马尔可夫模型的咳嗽声识别研究 魏栋1,陈纪赞1,田联房1,郑则广2,陈荣昌2,毛宗源1 (1. 华南理工大学,广州 510641; 2. 广州医学院,广州 510120) 摘要 本文通过对咳嗽声特性的分析,首先利用 短时过零率和短时能量对咳嗽声进行端点初步检 测,然后提取咳嗽的 Mel 频率倒谱系数作为特征 参数,使用隐马尔可夫模型进行训练,建立咳嗽 库。对所获得的 234 个样本进行训练和测试 性识别,其中 78 个为训练样本,两组咳嗽测试样 本和两组声音测试样本各为39个,识别系统把测 试组咳嗽正确识别率为85.53%,把测试组声音错 误识别为咳嗽的概率为7.89%。实验证明,通过将 咳嗽声的特性和语音识别方法的结合,隐马尔可 夫模型可用于检测咳嗽声,而且在咳嗽声识别中 也有很好的准确性和可靠性。 1 引言 咳嗽是机体的一种保护性动作,以消除 呼吸道的分泌物、渗出物及侵入呼吸道的异 物[1]。鉴于人为的监测缓慢且乏味,容易受 主观因素影响而出错,而多数患者未能完整 对自身的咳嗽特征进行描述,比如咳嗽的症 状、发作时间、频率等,影响了咳嗽的及时 诊断和合理治疗。因此,研究智能的咳嗽监 测系统及其算法显得非常必要。 至今这种对咳嗽严重性的评估,主要依 靠主观措施,如咳嗽反射敏感性、患者对自 身症状的感觉、咳嗽可视模拟测评、生活质 量问卷、咳嗽症状描述和患者的日记等[3]。 从而使大部分的咳嗽监测器的诊断受到人 为的影响较大。 利用可靠的咳嗽检测算法可以减少大 量需人工分析的数据,甚至可以做到去除 人工分析的过程,因此,要提高咳嗽识别 系统的有效性,这就要求有一种算法能够 识别出大部分在特定录音中的咳嗽声,同 时又能够将它与其他的具有相似特性的声 音区分开来。文章在参考了国内外关于咳 嗽识别的研究现状,并比较了咳嗽识别与 语音识别的关系,提出使用隐马尔可夫模 型作为咳嗽识别的主要算法。 2 基本定义 2.1 咳嗽发生机制 咳嗽现为深呼吸气后,声门关闭, 继而以突然剧烈的呼气,冲出狭窄的声门 裂隙产生咳嗽动作和发出声音[2]。 2.2 短时能量 能量是咳嗽声的一个重要的特性,对咳 嗽声的能量分析主要集中在短时能量上。短 时能量的定义如下[4]: (1) 式中, )(mx 为输入的待分析咳嗽声 信号,w(n)是哈明窗(Hamming Window) 函数。 (2) 2.3 短时过零率 顾名思义,过零就是指时域波形穿过坐 标轴,表现在离散信号序列上就是相邻两个 采样值异号,其定义如下[4]: (3) 式中, )(nx 为输入的待分析咳嗽声信 )]()([ 2mnwmx m En −∑∞ −∞= = ⎪⎩ ⎪⎨ ⎧ << −≤≤ − − = Nnn Nn N n nw 或0,0 10), 1 2cos(46.054.0 )( π ∑∞ −∞= −−−= m n mnwnxnxZ )(|)]1(sgn[)](sgn[| 号,sgn[x]是取符号函数,它的定义如下: (4) 通过设定阈值 nmax = 0.25 * max(x), nmin = 0.5 * min(x)来部分消除白噪音对过 零率的影响。 3 端点检测 首先利用短时能量值定位咳嗽声的位置 ST1,虽然它只是根据能量信息找到的起点, 但是根据咳嗽发生机制的特点,我们知道咳 嗽在起始处不存在类似于传统语音中的清 辅音,那么由此可知此ST1即为我们所要找 的起点。我们共采集了117个样本,根据短 时能量找到的起点已经很接近精确起点。 我们选择能量阈值为如下[6]: Denlw=max(3.1*Promax,en) Denhg=2.5* Denlw 式中,Denlw和Denhg分别为能量的下限和上 限阈值,Promax为前10帧的最大值,en为根 据大量咳嗽声的能量统计得出的参数,这里 我们用前10帧的咳嗽声短时能量E的1/9[6], 式中的系数都是在大量的实验中得出的数 据。 先根据Denlw、Denhg计算初始起点 ST1。方法为从第11帧开始,逐次比较每帧 的短时能量值,ST1为短时能量值超过 Denlw的第一帧的帧号。但若后续帧的短时 能量值在尚未超过Denhg之前又降到Denlw 之下,则原ST1不作为初始起点,改记下一 个短时能量值超过Denlw的帧的帧号为 ST1,依此类推,在找到第一个短时能量值 超过的帧时停止比较而得到检测的起点 ST1[6]。 图1中,图(b)表示输入的咳嗽声信号 的短时能量,在图(a)中用竖虚线划分出来 的ST1为检测到的各个独立咳嗽声的起始 点,从中可以清楚的看到,利用短时能量这 个特性,就可以很好的将这一时段的各个独 立咳嗽声的起点检测出来。 图1 短时能量搜索起始点 咳嗽声结束点N2的检测方法与检测起 点不同。由咳嗽的特点和根据大量的观察实 验,发现一个基本现象,在每段咳嗽声的起 始部分,开始阶段的能量都会骤然上升,之 后能量逐渐下降。因为在咳嗽时候剧烈的呼 气,冲出狭窄的声门从而使能量集中在开始 部分,随着声门的再次关闭,能量会慢慢的 下降,但这个下降过程相比于开始阶段的过 程要相对缓慢一些。那么,我们在选择起点 能量的门限值和终点能量门限值就应该有 所不同,即终点的能量门限要比起点的要高 一些。 研究发现此时仅仅以靠能量特征很难 把咳嗽和无声区较好的分开。而我们根据实 验发现咳嗽声的过零率会明显高于无声区, 那么在检测咳嗽终点时,我们就利用咳嗽的 短时平均过零率这个特点将咳嗽声和无声 区分开。 在利用过零率这个参数时,我们选择 阈值如下[6]: Dzcrlw=min(25,Mzcr+2* Vzcr) Dzcrhg=max(Dzcrlw,15) 式中, Dzcrlw和Dzcrhg分别为过零率的下 限和上限阈值,Mzcr和Vzcr分别为前10帧的 过零率均值和标准差,同样式中的系数也是 ⎩⎨ ⎧ <− ≥ = 0,1 0,1 )sgn( x x x 在实验中得出的经验数据[6]。 根据能量特征确定大致的终点位置N2 后,从 N2帧向前后 15 帧范围搜索,依次 比较各帧的过零率,若有 3 帧以上的 Dzcrlw≥Dzcrhg,则将终点 N2 定为满足 Dzcrlw≥Dzcrhg的最前帧的帧号,否则即 以N2为终点[6]。 图2 利用短时能量和过零率检测结果 在图2中(b)和(c)都分别表示输入的 咳嗽声信号的短时过零率和短时能量,在 图(a)中用竖虚线划分出来的ST1为各独立 咳嗽声的起点,N2 为咳嗽声的终点。从图 3的(a)图中可以清楚的看到,结合运用短 时能量和过零率这两个特性,很好的将这 一时段的各个独立咳嗽声的起止点检测出 来。 以上的方法即为起止点检测法也称 双门限端点检测算法。 4 特征提取 在语音识别算法中,信号的特征参数 矢量是整个识别系统构建的基础,对识别的 精度起着至关重要作用。其可以分为两类, 即时域特征矢量和变换特征矢量。在时域上 常用幅度、平均过零率等特征参数矢量,而 频域上有线性预测系数(LPC)、线谱对参 数(LSP)、Mel频率倒谱系数(MFCC)等。其 中MFCC能较好的反映人耳的听觉特征,而且 其性能及其鲁棒性也是上述所有参数中最 好的[8]。 频率f与Mel频率B之间的转换公式为: (5) MFCC 的提取过程如下: 图 3 MFCC 提取过程 在实验中为了减少甚至消除交流电的 影响,滤波器的个数取 26=M ,即可以 得到 26 维的 MFCC 倒谱系数。考虑到让 得到的结果对噪声和谱估计误差有更好的 鲁棒性,将经过Mel 滤波器组得到的Mel 频谱取对数能量。同时,为了描述咳嗽声 帧之间的相关性,引入了动态参数一阶差 分和二阶差分。 5 隐马氏模型 隐马氏模型( Hidden Markov Model, 简记为HMM)是使用马尔可夫链来模拟信号 的统计特性变化,是一个双重随机过程:一 重用于描述非平稳信号的短时平稳段的统 计特征(信号的瞬态特征,可直接观测到); 另一重随机过程描述了每个短时平稳段如 何转变到下一个短时平稳段,即短时统计特 征的动态特性(隐含在观察序列中)。因此, 运用 HMM 可有效解决怎样辨识具有不同参 数的短时平稳信号段和怎样跟踪它们之间 的转化等问题[8]。 病人在当前咳嗽状态可以以某种概率 向任意的咳嗽状态跳转,假设病人n时刻处 于Si咳嗽状态,则下一时刻(即n+1时刻) 转移到 Sj咳嗽状态的可能性,用概率 Aij来 表示,Aij=P(Xn+1=Sj|Xn=Si),那么以此规律, 所有的概率 Aij(i,j=1,2……L) 形成了一 预加重、分帧、加窗 DFT/FFT Mel频率滤波器组 Log 对数能量 DCT 求倒谱 MFCC ) 700 1(2595log10 fMel += 个矩阵,称为A状态转移概率矩阵。 病人在任何时刻 n 所处的状态 Xn 隐含 在系统内部,外界只能得到一个Q维的随机 观察矢量 Yn,那么假设病人的咳嗽有 L 个 状态 S1,S2,……SL,对每个状态都对应的概 率分布函数,则可以构成一个 L 维的行矢 量,用概率分布函数 B 表示,B= [Ps1(y),Ps2(y),……PsL(y)]。 实验的研究与开发使用MathWorks 公 司开发的 Matlab 作为编程语言,隐马尔可 夫模型的训练与识别则使用凯文·墨菲 (Kevin Murphy)1998 年所编写的 Matlab 隐 马尔可夫模型工具箱。此工具箱支持输出为 离散型、高斯型、混合高斯型的HMM,同 时也支持离散输入。 5.1 隐马尔可夫模型 使用从左到右结构的HMM,选择状态 数为L=6,如图 4 所示。 图 4 隐马尔可夫模型 5.2 咳嗽的隐马尔可夫模型训练 首先初始化HMM 参数,按照确定的状 态数L对特征矢量序列O进行等间隔分段, 第 i 段的矢量组成集合为 Qi。Qi 是状态 Yi 的训练数据集合。在实验中,设置高斯概率 密度函数的混合个数 M=5,用 K 均值聚类 法将 Qi 分成:h1、h2、h3、h4、h5等 M 个 子集合。 读取一个咳嗽声文件,对其提取特征, 调用HMM 工具箱进行训练,修改HMM 参 数;检查是否训练完毕,若未,则继续选择 下一个咳嗽声文件进行训练,训练的方法与 如图 5 所示。 图 5 咳嗽HMM 训练流程图 5.3 咳嗽的识别 在进行识别测试时,我们选用了这样的 识别方法,其识别流程与训练的流程相似, 读取一个咳嗽声文件,对其提取特征,调用 HMM 工具箱进行识别,输出识别结果(此 输出结果即为相似度),检查是否识别完毕, 若未,则继续选择下一个咳嗽声文件进行识 别,其流程如图 6 所示。 图 6 咳嗽HMM 识别方法的流程图 A23 A12 A13 A46 A24 Y1 Y2 Y6 A11 A22 A66 5.4 咳嗽识别与结果分析 在试验中,使用在医院所采集到的156 个咳嗽声信号,和 78 个非咳嗽声的样本进 行训练和识别。 其中 156 个信号样本分别命名为 cough1.wav, cough2.wav, ……, cough156;78 个非咳嗽声信号,分别命名为 sound1.wav, sound2.wav, ……, sound78.wav,这些作为非 咳 嗽 组 测 试 样 本 ; cough1.wav, cough2.wav, ……, cough78 作为训练样本, 而 cough79.wav, cough80.wav, … … , cough117.wav 作为咳嗽组测试样本一, sound1.wav, sound2.wav, ……, sound39.wav 非咳嗽组测试样本一。两组样本的相似度曲 线如图 7 所示; 图 7 两组样本的相似度曲线 咳嗽组测试 样本 非咳嗽组测 试样本 平均相似度 0.792 0.530 相似度最大 值 0.917 0.680 相似度最小 值 0.601 0.267 表 1 两组样本相似度数据统计 从图7及表1中可以看出咳嗽组测试样 本的平均相似度为 0.792,非咳嗽组测试样 本平均相似度为 0.530。 在所得的相似度中,我们寻找一个值, 称之为咳嗽阈值,并认为相似度高于此阈值 的为咳嗽,低于此阈值的则为非咳嗽。为找 到最佳阈值,我们在上述结果中找一个值, 使得咳嗽相似度尽可能多地在此阈值之上, 同时非咳嗽的相似度尽可能多地在此阈值 之下。我们在这两个平均值之间寻找进行寻 找,寻找步长为 0.005,寻找得到的阈值为 0.6526。此时把该组咳嗽正确识别出来的概 率为 92.11%。 然后,再以此阈值做实验,对另一组 39 个 的 咳 嗽 样 本 : cough118.wav, cough120.wav, ……, cough156.wav 进行识 别,其正确识别率为 78.95%;而对另一组 39 个 声 音 样 本 : sound40.wav, sound41.wav, ……, sound78.wav 进行识别, 把此组非咳嗽正确识别出来的概率为 100%。 从中得到以下结果:对咳嗽组测试样本 正确识别率为 85.53%,而把非咳嗽组测试 样本错误识别为咳嗽的概率为 7.89%。 5 探讨 虽然咳嗽声的识别可以参考语音识别 技术,但咳嗽声的识别与语音识别又有着不 同。 1、根据语音产生的离散时域模型,语 音识别主要区分清音与浊音。清音是气流通 过声道中狭窄缝隙形成湍流,造成噪声源; 而浊音的声源则是气流通过声门时所产生 的周期脉冲。由咳嗽的医学定义,咳嗽声是 否更接近浊音,因其由大量气流通过声门而 产生声音,因此是否可以通过引入其他生理 特征信号,如呼吸流量等,与咳嗽信号一起 作为识别参数,而得到更好的识别效果。 2、咳嗽声的声道相对固定。咳嗽的机 理原因是为把呼吸道的分泌物、渗出物及侵 入呼吸道的异物排出,是否就可以判断其声 道(即口腔)形状也是应相对固定,以使气 流顺畅通过。而在语音识别中,不同语音由 不同的浊音表征,而不同的浊音又是以声道 的不同以表征的。 在国外有些咳嗽识别系统已被提出, 而国内咳嗽识别技术研究情况基本为空白。 咳嗽识别系统主要用于无需住院的咳嗽病 人的监视,通过不断的提高咳嗽识别率和完 善咳嗽识别系统的功能,使其具有一下性 能: (1) 能准确识别出病人的咳嗽声; (2) 能准确记录病人咳嗽发生的时 间、次数、频率、剧烈程度; (3) 具有显示功能,能显示病人的咳 嗽情况; (4) 具有查询功能,方便医生查询病 人的咳嗽情况; 最后建立计算机的专家系统,能辨认各 种咳嗽特点的智能仪器,如分析刺激性咳 嗽、喘息性咳嗽、上呼吸道疾病性咳嗽、下 呼吸道疾病性咳嗽等,减少分析咳嗽对专家 的依赖性。 6 结论 咳嗽的强度及其发生的频率在医学上 具有很高的诊断价值,自动识别咳嗽声的系 统能帮助医生更好地监护病人。本文探讨性 地使用隐马尔可夫模型算法来实现对咳嗽 声自动识别。文章使用了 Mel 频率倒谱系 数+ Mel 频率倒谱系数一、二阶差分的结构 来提取咳嗽的特征向量,然后使用隐马尔可 夫模型算法对咳嗽进行训练和识别,结果 为:咳嗽的正确识别率为 85.53%,非咳嗽 的正确识别率为 92.11%。此结果证实隐马 尔可夫模型可应用于咳嗽识别中。 由于我们的实验中训练数据不足,使 得一些出现次数很少的观察矢量没有出现 在训练数据中,从而直接影响了咳嗽的正 确识别率。今后学习研究工作将集中在提 高咳嗽的正确识别率,一方面从医院获取 更多的训练数据,另一方面应进一步研究 模型训练的方法和技术,通过以上的方法 来提高咳嗽的正确识别率。 参考文献 [1] Eugene Braunwald…[etal.]Harrison`s principles of internal medicine-15th ed [M].北京:人民卫生出 版社,2001。 [2] 陈文彬,潘祥林 诊断学(第六版)[M].北京: 人民卫生出版社,2004。 [3] 杨行峻,迟惠生等 语音信号数字处理 [M]. 北京:电子工业出版社,1995。 [4] J. Y. Hsu, R. A. Stone, R. B. Logan-Sinclair, M.Worsdell, C. M. Busst, and F. Chung, “Coughing frequency in patients with persistent cough: assessment using a 24 hour ambulatory recorder,” Eur. Respiratory J.,vol. 7, pp. 1246–1253, Jul. 1994. [5] S. Subburaj, L. Parvez, and T. G. Rajagopalan, “Methods of recording and analysing cough sounds,” Pulmonary Pharmacol., vol. 9, pp. 269–279, Oct. 1996. [6] A. B. Chang, R. G. Newman, P. D. Phelan, and C. F. Robertson, “A new use for an old Holter monitor: an ambulatory cough meter,” Eur. Respiratory J., vol. 10, pp. 1637–1639, Jul. 1997. [7] 蔡莲红,黄德智,蔡锐 现代语言技术基础与 应用 [M].北京:清华大学出版社,2003 (魏栋 广州市天河区华南理工大学 自动 化科学与工程学院 05 硕 510641 weidong1682000@126.com) Abstract In this paper, according to the analysis of cough characteristics.First, zero across rate and temporal energy are employed to primarily detect cough endpoints, then extracted the cough’s Mel-Frequency Cepstrum Coefficents as the Vector Feature and template library is established based on the Hidden Markov Models(HMMs). we propose the use of hidden Markov models (HMMs) to automatically detect cough sounds, It was trained on 53 min selected from recordings, including 78 manually labeled cough events, and tested on a database of recordings from separate patients with comprising 156 cough events. Experimental results suggest that HMMs can be applied to the detection of cough sounds. More detailed analysis on the detected events is under development.
/
本文档为【基于隐马尔可夫模型的咳嗽声识别研究_魏栋】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索