为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > [方案]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用

[方案]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用

2018-02-19 35页 doc 156KB 41阅读

用户头像

is_482581

暂无简介

举报
[方案]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用[方案]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用 短时幅度谱估计在语音增强中的研究和应用 摘要 语音处理过程中受到各种各样噪声的干扰,不但降低了语音质量,而且还将使整个系统无法正常工作。因此,为了消除噪声干扰,在现代语音处理技术中,工业上一般采用语音增强技术来改善语音质量从而提高系统性能。 本论文基于短时幅度谱估计来研究语音增强,主要介绍了功率谱相减、维纳滤波法,并介绍了这几种语音增强方法的基本原理和实现方法。通过研究,我们得到在白噪声的条件下,这些语音增强方法具有很好的增强效果,可作为开发实用语音...
[方案]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用
[方案]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用 短时幅度谱估计在语音增强中的研究和应用 摘要 语音处理过程中受到各种各样噪声的干扰,不但降低了语音质量,而且还将使整个系统无法正常工作。因此,为了消除噪声干扰,在现代语音处理技术中,工业上一般采用语音增强技术来改善语音质量从而提高系统性能。 本论文基于短时幅度谱估计来研究语音增强,主要介绍了功率谱相减、维纳滤波法,并介绍了这几种语音增强方法的基本原理和实现方法。通过研究,我们得到在白噪声的条件下,这些语音增强方法具有很好的增强效果,可作为开发实用语音增强方法的基础。 关健词:语音增强,短时幅度谱估计,功率谱相减,维纳滤波,白噪声 Abstract Voice processing is always influcenced by a variety of noise, which not only reduces the voice quality, but also make the whole system break. Therefore, in order to eliminate the noise interference, in the modern voice processing technology, we generally use the voice enhancement technology to improve voice quality and system performance. In this paper, we will study the speech enhancement which is based short-term rate spectral estimation, we mainly introduce spectral phase, Wiener filtering method, and also introduced several methods of the realization and basic principles of speech enhancement. Through researching, we get the result that in the conditions of white noise, these speech enhancement method has a best effect, can be used as the basement of speech enhancement realiaztion. Key words: speech enhancement, short-term rate spectral estimation, power spectral subtraction, Wiener filtering, white noise 第一章 语音增强的研究背景及意义 1.1语音增强的应用背景 人们在语音通信过程中不可避免的会受到来自周围环境和传输媒介引入的噪声、通信设 备内部电噪声乃至其他讲话者的千扰。这些干扰最终将使接收者接收到的语音己非纯净的原始语音信号,而是受噪声污染的带噪语音信号。例如安装在汽车、飞机或舰船上的电话,街道、机场的公用电话,常受到很强背景噪声的干扰,严重影响通话质量。又如有历史价值的旧唱片、旧录音带的噪声和失真等,都是带噪语音信号的例子。而且环境噪声的污染,使得许多语音处理系统的性能急剧恶化。例如,语音识别己取得重大进展,正步入实用阶段。但目前的语音识别系统大都是在安静环境中工作的。在噪声环境中,尤其是强噪声环境,语音识别系统的识别率将受到严重影响。低速率语音编码,特别是参数编码,也遇到类似问题。由于语音生成模型是低速率编码的基础,当模型参数的提取受到混杂在语音中背景噪声严重干扰时,重建语音的质量将急剧恶化,甚至变得完全不可懂。在上述情况下,语音增强或者作为一种预处理,,不失为解决噪声污染的一种有效手段。因此,或者为抑制背景噪声,提高语音质目前,语音增强已在语音处理系统、通信、研究语音增强技术在实际中有重要价多媒体技术、数字化家电等领域得到了量值越来越广泛的应用。语音增强的一个主要目标,就是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常是随机的,从带噪语音中提取完全纯净的语音几乎是不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,没有疲劳感,这是一种主观测量:二是提高语音的可懂度,这是一个客观测量。但这两个目的往往不能兼得,所以实际应用中总是视具体情况而有所侧重的。 在语音信号的理论和应用中,所用的语音数据大部分都是在接近理想的条件下采集的。大多数语音识别和语音编码在开始研究时都要在高保真设备上录制语音,尤其要在无噪环境下录音。 然而,在语音通信过程中会不可避免的受到各种噪声的干扰,这种干扰将最终导致接收者接收到的语音信号已非纯净的原始语音,而是受到噪声污染后的带噪语音。正是由于这些污染,使得许多语音处理系统的性能急剧恶化。语音识别正在步入实用阶段,但识别系统大都是在安静环境中工作的,在噪声环境中尤其是强噪声环境,语音识别系统的识别率将受到严重影响。例如,在单个孤立词识别的系统中,用纯净语音训练后,其识别率可达到100%,但在以行驶的汽车噪声为背景的环境中,其识别率将会降至30%;低速率编码,特别是参数编码例如基于语音生成模型中涉及的LPCC系数求解,由于该系数对语音的编解码质量有重要的影响,而噪声的干扰使得求得的LPCC系数的准确度下降,从而使重建后的语音质量大幅下降,甚至变的完全不可懂。而特别遗憾的是,线性预测技术作为语音处理中最有效的手段,恰恰是最容易受到噪声影响的。因此,如何从带噪语音中尽可能的恢复原始纯净语音、去除噪声信号就成了语音信号预处理过程中的重要环节。 在实际需求的推动下,早在60年代,语音增强这个课题就已经引起了人们的注意,此后的 30年间人们一直契而不舍地进行这方面的研究。随着数字信号处理理论的成熟,70年代曾形成一个研究高潮,并取得一些基础性成果,并使语音增强成为语音信号处理理论的一个重要分支。这之后,随着超大规模集成电路和计算机技术的发展,为语音增强算法得以实验仿真和实时实现提供了可能,语音增强的研究进入了一个新阶段。 然而,由于干扰通常都是随机的,从带噪语音过程中提取出完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。 语音增强不仅与信号处理技术有关,而且涉及到人的听觉感知和语音学。另外,噪声来源众多,随应用场合不同,其特性也各不相同。即使在实验室仿真条件下,也很难找出一种通用的语音增强算法适用于各种噪声环境。必须针对不同噪声,采取不同的语音增强对策。目前国外已产生的几种算法也都是针对不同的噪声源处理,减少和消除它们对原始语音的干扰。 1.2 对语音增强的研究的发展历史 语音增强这个研究课题早在60年代即引起人们的注意,随着数字信号处理理论的成熟,70年代取得了一些基础性成果,并使语音增强发展成为语音信信号处理领域的一个重要分支;80年代及90年代初这十几年间,各种语音增强方法不断提出,进而奠定了语音增强理论的基础并使之逐渐走向成熟。随着数字信号处理的发展,以及DSP,FPGA的发展,越来越满足复杂的语音信号处理了。 现将这些语音增强方法给予简单的介绍: ?自适应梳状滤波 由于语音中的浊音具有明显的周期性,这种周期性反映到频域中为一系列分别对应基频(基音)及其谐波的一个个峰值分量,这些频率分量占具了语音的大部分能量。这时可采用自适应梳状滤波器来提取基音及其谐波分量,抑制其他周期性噪声和非周期的宽带噪声。 由于语音是时变的,语音的基音周期也是不断变化的,能否准确地估计出基音周期以及能否及时跟踪基音变化,是这种基于谐波增强法的关键。对人耳的听觉特性起主要作用的是语音频谱的幅度,而人耳对语音的相位是不敏感的。这样在进行语音增强处理的时候,就可将重点放在对语音幅度谱的精确估计上,对于语音的相位谱则允许有一定的误差(实际中,经常直接将带噪语音的相位谱作为语音信号的相位谱),以此为出发点,可以得到以下一些基于语音短时幅度谱的语音增强方法。 ?幅度谱相减 对带噪语音信号进行傅立叶变换,在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱,而语音相位谱则近似用带噪语音的相位谱代替,这正利用了人耳对语音相位的不敏感性,这样即达到了消除噪声的目的,这就是幅度谱相减方法的基本原理这种方法针对的是加性不相关噪声。 ?功率谱相减法 这种方法是从带噪语音功率谱中减去噪声的功率谱,从而得到语音信号的功率谱,进而决定语音信号各频谱分量增益,最终得到语音信号的估计。 ?维纳滤波法 维纳滤波法是为得到语音信号的时域波形,在最小均方误差下得到的最优估计器。实际应用中,多采用非因果维纳滤波器的频域实现形式。 ?最小均方误差短时谱幅度估计器 这种方法力图获得语音信号频谱幅度的最优估计,是从观测序列中依最小均方误差准则估计语音信号正交展开系数的模值。与两态软判决最大似然包络估计器一样,若考虑语音存在的不确定性,则可得到性能更优的最小均方误差短时谱幅度估计器。 ?隐马尔科夫模型语音增强方法 语音信号可细分为不同的类型,如鼻音、摩擦音、爆破音等。对不同类型的语音,如果采用不同的最优滤波器进行滤波则能得到更好的效果。要表示这些语音类型,人们提出了语音的混合源模型,人们将语音看成由一定数量的子源组成的,每个子源代表一种语音类型。不同的语音类型也可理解为不同的语音状态,则一段语音可看成一个在不同状态间转移的马尔科夫过程,这就是语音的隐马尔科夫模型思想。同样对噪声也有其隐马尔科夫模型。这样在语音增强过程中就可针对不同语音状态选择不同的滤波器,这样就得到了隐马尔科夫模型语音增强方法。如果能正确建立语音和噪声的隐马尔科夫模型,用隐马尔科夫模型方法进行语音增强处理,只要噪声不是十分强,就能得到很好的结果。 1.3噪声特性 随着人们对语音增强研究的发展,人们越来越认识到语音增强不仅仅是一个单纯的语音信号数字处理问题,而且还涉及到人的听觉感知、语音学和语言学。另外,噪声来源很多,随运用场合而异,其特性也各不相同.因此,要想对语音增强有比较充分的了解,必须首先对语音和噪声的重要特性进行一番了解和。 我们还必须认识到,要想得到一种可以适用于各种情形的语音增强算法是不可能的,必须针对不同的实际情况,采取不同的语音增强算法。下面我们先分别简略的叙述一下语 音和噪声的主要特性。本章我们首先从语音和噪声的特性入手,对最常用也是最基本的谱相减法进行研究。 以上我们介绍了听觉系统的生理机制以及听觉的基本特征,下面我们接着介绍一下常见的噪声。噪声来源取决于实际的应用环境, 因而噪声特性可以说是变化无穷。噪声可以是加性的,也可以是非加性的,但是对于非加性的噪声,我们可以通过一些相应的变换(如同态变换和伪随机扰动)将其转化为加性噪声,所以我们这里讨论的主要是加性噪声。加性噪声大致上分为:周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰。 1.周期性噪声 其特点是具有许多离散的线谱,主要来源于发动机等周期性运转的机械。电气干扰,特别是电源交流声,也会引起周期性噪声.这种噪声可以通过梳状滤波器予以抑制。实际环境中的周期性噪声并非简单地只含线谱分量,而是由许多窄谱带组成,而且往往是时变的。 2.脉冲噪声 脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于爆炸、撞击和放电等。对它们的消除可以通过时域上设置闭值来加以抑制,也可以通过内插法进行平滑处理。 3.背景噪声对发音的影响 噪声使语音质量下降,可懂度降低。强噪声会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪声环境中的发音方式,从而改变了语音的特征参数,这称为Lombard效应,它对语音识别系统有很大的影响。 随着人们对语音增强知识的认识和发展,各种各样的语音增强算法都相应的发展起来。如前所述,由于噪声特性各异,总的来说,现在比较流行的算法主要有以下几种: 1) 小波分解法; 2) 听觉屏蔽法; 3) 噪声对消法; 4) 谐波增强法; 5) 基于语音生成模型的增强算法; 6) 基于短时谱估计的增强算法; 以上的各种语音增强算法虽然在具体实现上是有差别的,但从另一个方面来说,它们都不得不在语音的可懂度和主观度量这两个方向上做一番权衡。至于到底侧重与哪一方面,就要看算法内部的参数选取了。 其中,噪声对消法的基本原理是从带噪语音中减去噪声。这一原理是显而易见的,但问题是如何得到噪声的复制品。如果可以用两个麦克风(或多个麦克风)的信号采集系统,一个采集带噪语音,另一个(或多个)采集噪声,则这一任务比较容易得到解决。并且在强噪声环境下,这种方法可以得到很好的消除噪声结果。如果采集到的噪声足够“逼真”,甚至可以与带噪语音在时域上直接进行相减。噪声对消法可以用于平稳噪声相消,也可以用于准平稳噪声。采用噪声对消法时,两个话筒之间必须要有相当的隔离度,但采集到的两路信号之间不可避免地会有时间差,因此实时采集到的两路信号中所包含的噪声段是不同的,回声及其它可变衰减特性也将影响所采集噪声的“纯净”性。因而,采集到的噪声必须经过数字滤波器,以得到尽可能接近带噪语音中的噪声。通常,这就需要采用自适应滤波器曰,使相减噪声与带噪语音中的噪声一致,其原理类似于回波抵消器。自适应滤波器通常采用FIR滤波器,其系数可以采用最小均方(LMS)法进行估计,使如下信号的能量最小。 N (1-1) ,,,,,,,,,,,,,,,,,,en,sn,dn,vn,sn,dn,Wrn,k,k,1k 这里,是带噪信号滤波后的结果,是第二个话筒采集到的噪声信号,为滤波器,,,,vnrnWK系数,N为FIR滤波器的抽头数。只要噪声与话音相互独立,使的平均值最小,就能得到最接,,en 近与带噪语音中的噪声复制品。但若采集到的噪声与语音是相关的,则滤波器系数只应在语音间歇期进行刷新。但噪声对消法的一个缺点是增强后的语音中含有明显的“音乐噪声”,这是由频谱相减而产生的一种残留噪声,具有一定的节奏性起伏感,故而得名“音乐噪声”。 语音信号的浊音段有明显的周期性,利用这一特点,可以采用谐波增强法构造自适应梳状滤波器来提取语音分量,抑制噪声。梳状滤波器可以在时域实现,表达式为: M ,,,,yn,Cxn,kL,k,,kM C,,,,xnyn这里,L为基频周期;M 为常数(通常不大);是滤波器输入信号序列;为输出信号序列;k为系数,随信号周期而变化。输出信号是输入信号的延时加权和的平均值。当延时与周期一致时,这个平均过程将使周期性分量得到加强,而其它非周期性分量或与信号周期不同的其它周期性分量受到抑制或消除。显然,上述方法的关键是要精确估计出语音信号的基音周期,这在强背景噪声干扰下是件困难的事情。在基音发生变化的过渡段,这种方法会受到严重影响。选择M=1可以 减少影响,但增强效果下降。M 与梳状滤波器的带宽成反比。 梳状滤波器也可以在频域实现。对语音进行傅立叶变换后可以鉴别出需要提取的各次谐波分量,然后经傅立叶反变换恢复为时域信号。梳状滤波器不但可增强语音信号,也可以用于抑制各种噪声干扰,包括消除同声道的其它语音的千扰。同时对两个语音进行梳状滤波器的主要困难是:存在另一个人讲话干扰时,如何跟踪并精确估计讲话者的基音。 小波分解语音增强法和听觉掩蔽法是比较新兴的算法。很明显,小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的。同时它又结合了谱相减的一些基本原理。听觉掩蔽是利用人耳的听觉特性的一种增强算法,目前人们对它的研究还处于初级阶段。就近几年的发展趋势而言,小波分解法和听觉掩蔽法是人们研究的热点。人们对小波分解法的兴趣是与小波分解有关的,团为人们对小波的研究也还是比较新的,随着人们对小波分解研究的深入,自然也会导致对小波分解增强算法研究的深入。听觉屏蔽法是随着人们对人耳听觉系统的认识发展而发展起来的。人耳有很多优点:它可以在强噪声的干扰下分辨出需要聆听的信号,它也可以在多个说话者同时发声时分别将它们提取出来,同时,它也是一个很复杂的系统,人们现在对它的认识还是很浮浅的。正是由于以上这些原因,人们对听觉屏蔽法寄予了厚望,有理由相信,随着人们对人耳特性了解的加深,听觉屏蔽法会更深入的发展。另外,人们也在尝试将人工智能、隐马尔可夫模型和神经网络等理论用于语音增强,但目前尚未取得实质性的进展。 1.4 本课题主要工作 基于短时幅度谱估计的语音增强方法,如幅度谱相减、维纳滤波等方法具有适应信噪比范围大、增强效果好、方法简单易于实时处理等优点。并成为应用最广泛的语音增强方法。所以进行基于短时幅度谱估计的语音增强方法的研究具有重要意义。 本文的主要研究步骤和主要研究内容如下所示: 第一章: 语音增强的研究背景及意义 第二章: MATLAB简介和语音信号特点介绍 第三章: 减谱法语音增强 第四章: 语音增强的维纳滤波研究 第五章: 短时幅度谱估计在语音增强方面的性能对比分析 第六章: 第二章 MATLAB以及语音信号特点简介 2.1 MATLAB简介 Matlab,Matrix Laboratory的简称,是美国Mathworks公司于1984年推出的数值计算机仿真软件,经过不断的发展和完善,如今已成为覆盖多个学科、具有超强数值计算能力和仿真分析能力的软件。Matlab应用较为简单,用大家非常熟悉的数学表达式来表达问题和求解方法。它把计算、图示和编程集成到一个环境中,用起来非常方便。同时,Matlab具有很强的开放性和适应性,在保持内核不变的情况下,Matlab推出了适合不同学科的工具箱,如图像处理工具箱,小波分析工具箱、信号处理工具箱、神经网络工具箱等,极大地方便了不同 简单的命令形式,使其越来越受到国内外科技人学科的研究工作。Matlab强大的绘图功能, 员的青睐,得到越来越广泛的应用。 一. MATLAB的特点 一种语言之所以如此迅速地普及,显示出如此旺盛的生命力,是由于它有着不同于其它语言的特点。正如同Fortran和C等高级语言使人们摆脱了需要直接对计算机硬件资源进行操作一样,被称为第4代计算机语言的MATLAB,利用其丰富的函数资源,使编程人员从繁琐的程序代码中解放出来。 1(功能强大 MATLAB具有功能强劲的工具箱,其包含两个部分:核心部分和各种可选的工具箱。核心部分中,有数百个核心内部函数。其工具箱又可分为两类:功能性工具箱和学科性工具箱。功能性工具箱主要用来扩充其符号计算功能、图示建模仿真功能、文字处理功能以及与硬件实时交互功能。功能性工具箱能用于多种学科,而学科性工具箱是专业性比较强的,例如control toolbox,image processing toolbox,signal processing toolbox等。这些工具箱都是由该领域内的学术水平很高的专家编写的,所以用户无需编写自己学科范围内的基础程序,就能够直接进行高、精、尖的研究。 2. 界面友好,编程效率高 MATLAB突出的特点就是简洁。它用更直观的、符合人类思维习惯的代码代替了C和Fortran语言的冗长代码,给用户带来的是最直观、最简洁的程序开发环境。MATLAB语言简洁紧凑,使用方便灵活,库函数极其丰富,程序书写形式自由,利用其丰富的库函数避开繁杂的子程序编程任务,压缩了一切不必要的编程工作。由于库函数都是由本领域的专家编写的,因此用户不必担心函数的可靠性。可以说,用MATLAB进行科学开发是站在专家的肩膀上来完成的。 3. 开放性强 MATLAB有很好的可扩充性,可以把它当成一种更高级的语言去使用。各种工具箱中的函数可以互相调用,也可以由用户更改。MATLAB支持用户对其函数进行二次开发,用户的应用程序可以作为新的函数添加到相应的工具箱中。 二( MATLAB的主要功能 MATLAB之所以成为世界顶级的科学计算与数学应用软件,是因为它随着版本的升级与不断完善而具有越来越强大的功能。 2( 数值计算功能 MATLAB出色的数值计算功能是使之优于其他数学应用软件的决定性因素之一。 2符号计算功能 MATLAB符号运算的独特之处:无需事先对变量赋值,而所得的结果以标准的符号形式表达,符号计算的整个过程以字符进行。 3数据分析功能 MATLAB可以将计算数据以二维、三维乃至四维的图形表现。这不仅使数据间的关系清晰、明了,而且对于揭示其内在本质有着非常重要的作用。 4动态仿真功能 MATLAB提供了一个模拟动态系统的交互程序SIMULINK,用户通过简单的鼠标操作,就可建立起直观的系统模型,并进行仿真。 5图形文字统一处理功能 MATLAB Notebook成功地将Microsoft Work与MATLAB集成为一个整体,为文字处理、科学计算、工程营造了一个完美、统一的工作环境。它既拥有Word强大的文字处理功能,又能通过Word访问MATLAB的数据计算和可视化结果。 2.2 语音信号特点介绍 随着人们对语音增强研究的发展,人们越来越认识到语音增强不仅仅是一个单纯的语音信号数字处理问题,而且还涉及到人的听觉感知、语音学和语言学。另外,噪声来源很多,随运用场合而异,其特性也各不相同.因此,要想对语音增强有比较充分的了解,必须首先对语音和噪声的重要特性进行一番了解和分析。我们还必须认识到,要想得到一种可以适用于各种情形的语音增强算法是不可能的,必须针对不同的实际情况,采取不同的语音增强算法。下面我们先分别简略的叙述一下语音和噪声的主要特性。本章我们首先从语音和噪声的特性入手,对最常用也是最基本的谱相减法进行研究。 语音是由一连串的音所组成的,这些音以及相互间的过渡就是代表信息的符号。这些音的排列是由语音的规则和人的发声器官决定的。人类的发声系统可以描述如下:声道起始于声带的开口即声门处而中止于嘴,它包含了咽喉和口腔。声道的截面积取决于舌、唇、领以及小舌的位置。当小舌下垂时,鼻道与声道发生耦合而产生语音中的鼻音。为了便于理论分析,人们将发声系统简化,认为主要由三部分组成:喉、声道和嘴。在此基础上,人们又构造了一个既符合实际又便于处理的离散时域生成模型,它包括三部分:激励源、声道模型和辐射模型。进一步简化得到最常用的语音信号LPC全极点生成模型(如图2-1所示)。 图2-1 语音的全极点生成模型 图中u(n)为激励源,g为增益因子,H(z)=1 /A(z)为全极点滤波,其中: p,k ,,Az,1,az,k,1k 这里,p为阶数,为LPC系数。根据这个模型,可以得到离散时域语音信号s(n)的统ak 一表达式: p ,,,,,,sn,asn,k,gun,k,1k 语音的声音按照其激励形式的不同可以分为三类:第一类是浊音,当气流通过声门时,如果声带的张力刚好使声带发生张弛振荡式的振动,那么就可以产生准周期的空气脉冲,这一空气脉冲激励声道得到浊音,对应于图中就是u(n)为间隔是基音周期T的脉冲串;第二类是摩擦音或清音,如果声道在某处发生收缩,同时迫使空气以高速冲过这一收缩部分而产生湍流,就得到这种音,此时建立的宽带噪声源激励了声道,对应于图中就是u(n)为宽带噪声;如果使声道完全闭合,在闭合后产生气压,然后突然释放,这就得到爆破音。一般而言,语音信号可以看作是由浊音、清音以及它们之间的过渡组成的。 1.语音信号的频谱分量比较集中 通过对语音信号发声过程的研究以及观察记录的各种语音波形,人们发现语音信号的频谱分量主要集中在300,3400Hz的范围内,这是因为人的声道的变化不可能太快。这一点给我们的语音研究和计算带来了很大的便利,我们只要把注意力放在这一区域就可以了。 2.语音是一个时变的、非平稳的随机过程 人类发声系统的生理结构的变化速度是有一定的限度的,在一段短时间内(5-50ms)人的声带和声道形状有相对稳定性,可近似认为其特征不变,因而语音的短时谱分析也有相对稳定性。短时谱的这种平稳性是很多语音处理算法和技术的基础。 3.语音大体上可以分为清音和浊音两大类 一般而言,人类的语音信号往往在有些时段表现出明显的周期性(浊音),这种语段在频域上有共振峰结构,其能量大部分集中在较低频段内;而在另一些时段表现出完全的随机性(清音),这种语段在频域上没有明显的共振峰结构,其频谱类似于白噪声;其余的就是由两者相混合而成。这一点反映在图2-1就是:激励源u(n)要么就是由脉冲发生器发出,要么就是由白噪声发生器发出,要么就是由两者按一定比例混合后发出。 4.作为一个随机过程,语音信号可以用统计分析特性来描述 在高斯模型假设下,傅立叶展开系数被认为是独立的高斯随机变量,均值为0,而方差 是时变的。这种高斯模型应用于有限帧长时只是一种近似的描述,在宽带噪声污染的带噪语音的语音增强中,这种假设可用于分析的前提。 第三章 减谱法语音增强 3.1信噪比介绍 信噪比(Signal-to-Noise Ratio,SNR)一直是衡量针对宽带噪声失真的语音增强算法的常规方法,有许多变种,如分段式信噪比、频域加权型信噪比等。值得注意的是,基于信噪比的衡量方法只对试图复制原来的输入波形的编码或者增强算法有效。假设表示带噪yn() ˆ信号,表示其中的纯净语音信号,表示相对应的增强信号,所有这些信号都假设sn()sn() 是能量信号,则时域误差信号如公式: ˆ ,,,()()()nsnsn 误差能量公式: ,,22ˆ Ensnsn,,,,()()(),,,,,nn,,,,,, 纯净语音信号的能量公式: ,2 Esn,(),sn,,, 经典形式的信噪比定义公式: ,2sn(),E,,,sn,,SNR10log10log 1010,2E,ˆ,snsn()(),,,,,,n 从上式可以看出,需要知道纯净语音信号才有可能决定信噪比的值,这在实际的环境下是不可能的。因此,上述方法主要用于纯净语音信号和噪声信号都是已知的算法的仿真 中。 3.2 基本减谱法 处理宽带噪声的最通用技术是谱减法,即从带噪语音估值中减去噪声频谱估值,而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感,因而这种方法主要针对短时幅度谱。 假定语音为平稳信号,而噪声和语音为加性信号且彼此不相关。此时带噪语音信号可 ,,,,,,yt,st,nt表示为。 上式中,s(t)为纯净语音信号,n(t)为噪声信号。而用Y(w)、S(w)和N(w)表示y(t)、s(t) ,,,,,,Yw,Sw,Nw和n(t)的傅立叶变换,则有下列关系存在。 222,,,,,,Yw,Sw,Nw对于功率谱则有,因为假定噪声是不相关的,所以不会出现有 222,,,,,,YwNwSw信号与噪声的乘积项。只要从中减去便可恢复。之所以能这样做是基于人耳对语音相位不敏感(相聋)这一特点。因为噪声是局部平稳的,故可以认为发语音前的噪声与发语音期间的噪声功率谱相同,因而可以利用发语音前(或后)的“寂静帧”来估计噪声。然而,语音是不平稳的,而且实际上只能用一小段加窗信号。此时上式应写为 222,,,,,,,,,,,,,,,,Yw,Sw,Nw,SwNw,SwNwwwwwwww 2,,Yw上式中,下标w表示加窗信号,*表示复共轭。可以根据观测数据估计,其余各w项必须近似为统计均值。由于n(t)和s(t)独立,则互谱的统计均值为0。 ,,,,SwP,,Sw为了用傅立叶逆变换再现语音,还需要的相位,这里用表示。此时可whw ,,,,,,,,,,Sw,SwexpjPYw,,Yw借用带噪语音相位,即的相位来近似。因而则恢复的语wwhww 音是估值的傅立叶反变换,如下所示: 图3-1 基本结构 3.3 一般形式的功率谱相减估计器 设带噪语音的观测模型 ynsnwn()()(),, 对上式两边做傅立叶变换得 YSW,,nnn 进一步可得 2*22** ||||||YYYSWSWSW,,,,,,nnnnnnnnn 式中“*”代表复共轭。由于s(n)与w(n)独立,所以与独立。又因为为零均值高斯WWSnnn分布,所以有 222 EYESEW[||][||][||],,nnn 对于一个分析帧内的短时平稳过程,则 22 ||||()YSn,,,nnw 2其中为噪声的功率谱密度,即无语音时的统计平均值。由此可得原始语音幅度谱,()n||Wwn 的估计为: :21/2221/2 ||[|||()|][||||]SYnYEW,,,,,nnwnn 为了维持估计器在无噪声时系统的同一性,在幅度谱上加上带噪语音的相位信息,则得到完整的功率谱相减估计器为: 2::YYn||(),,1/2nnw ||||[]SSY,,,,nnn2||||YYnn 3.4 减谱法的改进形式 实际上噪声谱服从高斯分布 2,,,x,m122,,,px,e 2,, ,其中,m为x的均值,为标准偏差。噪声的帧功率谱随机变化范围很宽,在频域中的最大、最小值之比往往达到几个数量级,而最大值与均值之比也达6~8倍。因此,在减去噪声谱后,会有些较大的功率谱分量的剩余部分,在频谱上呈现出随机出现的尖峰,在听觉上形成残留噪声。这种噪声具有一定的节奏性起伏感,所以称之为“音乐噪声”。 为有效地减少宽带和音乐噪声,可对减谱法进行改进。噪声的能量往往分布于整个频率 范围,而语音能量则较集中于某些频率或频段,尤其在元音的共振峰处。因此可在元音段等 2,,,,,,Nw,,1幅度较高的时帧去除噪声时,减去,则可更好的相对突出语音的功率谱。w 这种改进也称为被减项权值处理。 112,2,,,,,同时,将功率谱计算及改为和计算(这里a不一定为整数),可以增加,, 灵活性。这种方法称为功率谱修正处理。经分析和实验得知,当a>2时,它具有与被减项加权处理相同的结果。 综合上面两种处理,减谱法改进形式修正为 :,,,,,,,,,Sw,Yw,,,Nw www 引入α、β两个参数为算法提供了很大的灵活性。当α=2,β=1时即变为基本的减谱法。实际的增强实验表明,适当调节α、β,可以获得比原始的减谱法更好的增强效果。 3.5 利用MATLAB实现减谱法语音增强 上面我们简单的介绍了减谱法语音增强的基本理论,下面我们将利用MATLAB来设计减谱法并选取一个音频信号进行增强处理并对比前后结果得到增强的效果,并对前后两次进行时域和频域信号分析。 ******************************************************************** %对每帧fft for i=1:frame_num; fft_frame(:,i)=fft(window.*inframe(:,i)); abs_frame(:,i)=abs(fft_frame(:,i)); ang_frame(:,i)=angle(fft_frame(:,i)); end; %平滑处理 abs_frame_f=abs_frame; for i=2:(frame_num-1); abs_frame_f(:,i)=mean(abs_frame(:,(i-1):(i+1)),2); end; abs_frame=abs_frame_f; %取前20帧,做为噪声幅值 abs_noise=mean(abs_frame(:,1:20),2); res_noise=max(abs_frame(:,1:20)-abs_noise*ones(1,20),[],2); for i=1:frame_num; sub_frame(:,i)=abs_frame(:,i)-0.8*abs_noise; end; zero_frame=zeros(len,frame_num); sub_frame_z=sub_frame; %将sub_frame距阵中小于0的点置0 [I,J]=find(sub_frame_z HangOver) SpeechFlag=0; else SpeechFlag=1; end end 下面我们来对比分析以后的效果。 图4-1 原始信号的时域频域信号分析 通过运行程序,通听觉上可以感受到该语音信号有明显的杂音,听起来很不舒服。通过 运行后结果,我们可以看到,该语音信号的时域部分,在每次人发音间隔之间具有明显的噪 声干扰也就是我们所谓的噪声。 图4-2 通维纳滤波进行语音增强后的信号的时域频域信号分析 通过语音滤波以后,从听觉好可以听到语音已经变的清晰,没用明显的杂音干扰,分析其信号频谱,可以看到,其有效频率和高频的幅度比变大,说明通过语音增强后音质得到了明显的改善。 4.5 总结 目标信号谱估计变化的快慢程度几乎不能控制,滤波器可能在相邻帧之间变化的非常快,类似于谱减,会导致起伏的残存噪声,而这种起伏听起来就成了烦人的音乐噪声。这 2ˆ,,YpL,w是由于周期图中的峰值将会影响式(3-5)对目标信号的估计。但这种噪声,,XpL,w 在增强后的语音中已非常不明显,相对谱减算法中音乐噪声的“清晰”可辩,维纳滤波算法处理后的语音已不能明显觉察出音乐噪声的存在。 第五章 短时幅度谱估计在语音增强方面的性能对比分析 5.1短时幅度谱估计在语音增强方面的性能对比分析 通过上面的分析,我们可以推出基于语音短时幅度谱的语音增强方法都可写成统一的表达式: : Sgy,,nnn :式中为观测信号在第n个频点上的谱分量,为增益函数,为语音信号在第n个频点上gySnnn 的谱分量的估计值。不同的基于语音短时幅度谱的语音增强方法就体现在对的选取上的不gn同。 对于幅度谱相减估计器: ,n g,,1n||yn 为噪声的功率谱密度。可以得到: ,()nw 1 g,,1~n,n 对于功率谱相减估计器则为: 11/2 g,,[1]n,n 对于维纳滤波估计器则为: 1 g,,[1]n,n 上述这些方法尽管估计器在推导的过程中采用的准则不同,但他们之间是相互联系的。对于幅度谱相减、功率谱相减估计器及其改进形式可写成统一的表达式::,,1/2。 ||[||[||]]SyEw,,,nnn 通过对这些增强方法的理论研究和对试验结果的分析,我们可以看出,对每种方法,其基本实现形式的增强语音效果一般,只有它们的改进形式具有应用价值。诸方法的改进形式都具有良好的改善语音质量的性能,其中两态软判决最大似然包络估计器、采用Decision一direeted估计先验信噪比的维纳滤波的效果要稍好一些,而且每种算法的复杂度都很低。虽然两态软判决最大似然包络估计器的计算量稍大些,但其具有相应增加处理速度的措施,仍具有实时处理能力。实际应用中,要根据具体的实际情况综合考虑,才能决定那种方法最好。 本论文的工作可作为开发实用语音增强技术的基础。在实际应用中,必须要与VAD(VoieeAetivityDeteetion)技术相结合,才能适用于实际环境中的非平稳噪声。 5.2 关于维纳滤波的改进 为了减缓目标信号功率谱估计在相邻帧出现快变,同时也为了减少烦人的残存起伏噪声,可对式(3-5)中的目标谱估计进行时域平滑。将第p帧的目标信号谱估计记为 2ˆˆ,那么平滑的功率谱估计为: ,,,,SpL,w,XpL,wx ~~~ ,,,,,,,,,,SpL,w,,Sp,1L,w,1,,SpL,wxxx 2~ˆ其中,是平滑因子。然后用替换到式维纳滤波器中的。式中的平滑因,,,,XpL,w,SpL,wx 子决定了滤波器将以多快的速度对非平稳的目标信号功率谱进行自适应。 ~ˆ ,,xn ,,,,xn,bn,,SpL,wx ~ˆ,,,,SpL,w,Swxb ˆ ,,Sw2bSTFT ˆ ,,SpL,wx 2,1ˆ平滑 Z ,, XpL,w 图5-1采用目标谱估计平滑的经典维纳滤波器 第六章 总结 从前文所示的波形图和语谱图上均可看出,对于平稳高斯白噪声污染信号,上述几种增强方法均可达到较为理想的滤波效果。但综合全部实验结果(由于篇目所限未能一一列出),其中基本谱减算法适用范围极其有限,只能针对加载噪声幅度相对原始信号不是特别大的特殊情况。谱减法虽然在算法上做出了改进,使得谱减理论的适用范围有了明显扩大,但相对噪声环境的复杂性还需进一步改进,效果的局限性已不是十分明显。通过对实验结果的数据分析,证明了传统的谱减算法不但运算理论简单,而且是行之有效的,还是有一定的存在依据。 维纳滤波算法适用范围较为广泛,但容易丢失小部分信息,在数据信息完整性要求不是十分严格的情况下是普遍适用的,且无论从滤波效果还是信息完整性方面都优于小波算法。 语音增强是语音信号处理领域中一个重要的基本问题。本论文介绍了干扰噪声对语音通信的危害,详细探讨了在去除干扰噪声时所面临的问题以及解决这些问题的方法。在理论分析和实际推导的基础上,提出了一些改进的语音VAD算法和语音增强方法。通过计算机模拟,取得了比较满意的效果。但这与实际应用仍有一定距离,还有待于进一步改进。 参考文献 [1] 易克初. 语音信号处理[M]. 北京:国防工业出版社, 2000. [2] LiZhao, KOBAYASHI, NIIMI Y Tone. Recongnition of Chinese continuous speech using continuous HMMs[J]. Journal of the Acoustical Society of Japan, 53(12), 933-940, 1997. [3] 周迪伟等译. 计算机语音处理[M]. 国防工业出版社, 1987,5. [4] 杜凯,初琪果. 语音信号的线性预测分析[J]. 黑龙江水专学报. 1999,3. [5] 杨行峻,迟惠生. 语音信号数字处理[M]. 北京:国防工业出版社, 1995,8. [6] 苏晓生. 掌握MATLAB6.0及其工程应用[M]. 北京:科学出版社. 2002. [7] 楼顺天. 基于MATLAB的系统分析与设计. 西安:西安电子科技大学出版社. 2000. [8] PICARD R W. Affective computing [M] . Cambridge, MIT, 1997. [9] V Kaostov, S Fu-+kuda. Emotion In User Interface ,Voice Interaction System Systems Man And Cybernetics [A]. 2000. [l0]B.GoldandL.R.Rabiner“ParallelProeessingteehniquesforest-imatingPitehPeriodsofsPeeehinthetimedomain,,,JAcoust. Soc.Amer.,Vol.46,1979. [11]B.Wifrow,etal,“AdaPtivenoiseeaneelling,PrineiPlesandaPPlications,”ProC工E百E,Vol.63,Dee.1975. [12]D.L.WangandJ.S.Lim,“TheunimPortaneeofPhaseinsPeeeh enhaneement,”IEEETrans.Aeousr.,SPeeeh,SignalProeessing,Vol.ASSP一30,No.4,Aug1982. [13]ErieA.wanandAlexT.Nelson“RemovalofnoisefromspeeehusingthedualEKFalgorithm,”ICASsp’98. [14]G.PuskoriousL.Feldkamp“NeuraleontrolofnonlineardynamiesystemswithKalmanfiltertrainedreeurrentnetwork s,”IEEE Trans. on NN,Vol.5,No.21995. [15]H.L. Van一Trees,Detection,Estimation,and Modulation Theory. New York; Wiley,1968.
/
本文档为【[方案]【matlab编程代做】短时幅度谱估计在语音增强中的研究和应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索