为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

国立清华大学硕士论文

2017-09-01 50页 doc 231KB 12阅读

用户头像

is_482581

暂无简介

举报
国立清华大学硕士论文国立清华大学硕士论文 國 立 清 華 大 學 碩 士 論 文 題目: 語 音 評 分 Speech Evaluation 系別 資訊工程學系 組別 學號姓名 894329李俊毅 (Chun-Yi Lee) 指導教授 張智星博士 (Jyh-Shing Roger Jang) 中華民國九十一年六月 ~ b ~ 摘要 語音評分乃是結合了許多音訊處理以及語音辨識技術的一門學問,本論文從定義評分所需的特徵參數開始,實驗許多可行的特徵比對方式,期許建立一套合理的語音評分系統。 本論文包含兩個部分,第一部分為「利用標準語...
国立清华大学硕士论文
国立清华大学硕士论文 國 立 清 華 大 學 碩 士 論 文 題目: 語 音 評 分 Speech Evaluation 系別 資訊工程學系 組別 學號姓名 894329李俊毅 (Chun-Yi Lee) 指導教授 張智星博士 (Jyh-Shing Roger Jang) 中華民國九十一年六月 ~ b ~ 摘要 語音評分乃是結合了許多音訊處理以及語音辨識技術的一門學問,本論文從定義評分所需的特徵參數開始,實驗許多可行的特徵比對方式,期許建立一套合理的語音評分系統。 本論文包含兩個部分,第一部分為「利用標準語音資料的評分」,第二部分為「利用HMM及音高資料的評分」,分別從不同的觀點來對語音評分。 「利用標準語音資料的評分」,顧名思義我們可以想見這種評分方式將會有一個標準答案,亦即存在一標準語音,而測試的語音則要愈像此標準語音愈好,愈像者分數將會愈高,這部分所運用到的技術,包含特徵參數的擷取、圖樣比對方法的設計以及評分機制的建立等,其中特徵參數的部分我們是採用以下三個特徵,分別是音量強度曲線(Magnitude)、基頻軌跡(Pitch Contour)以及梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients),音量強度曲線代聲音音量強弱的變化趨勢,基頻軌跡代表聲音音高的起伏,梅爾倒頻譜參數則是代表聲紋,即語音的內容。在評分方面,我們使用「動態時間扭曲」(dynamic time warping)來比較這三個特徵的相似程度。 「利用HMM及音高資料的評分」主要是提供另一種語音評分的方式,以預先訓練好的聲學模型及聲調模型當成標準答案,經由語音辨認技術的使用,找出測試語音跟模型間的差異程度,並配合評分機制給與評分,此部分包含許多目前 ~ i ~ 語音辨識常運用到的技術,例如在聲音辨識方面包含了隱藏式馬可夫模型 (Hidden Markov Model)、樹狀網路(Tree Net)及維特比演算法(Viterbi Algorithm)等,在聲調辨識方面則包含了諸如Orthogonal Expansion、Chebyshev Approximation、K-means分群法及分類器的設計等等。在評分方面,我們利用測試語音在所有可能的411個音的排名並配合聲調給予評分。 ~ ii ~ Abstract This thesis discusses several methods in speech evaluation, which is a study on computer evaluation of speech contents, fluency and intonation. It requires the techniques from audio signal processing and speech recognition. In order to develop an appropriate and consistent speech evaluation system, we define several useful speech features for our speech evaluation system and perform several experiments on feature matching methods. There are two parts in this thesis. The first one is “Evaluation using standard speech”, and the other is “Evaluation using HMM and pitch contour”. “Evaluation using standard speech” is a method that evaluates the similarity between a test speech and the corresponding standard speech. We use various approaches for speech feature extraction, pattern matching, and similarity computation. In particular, we use magnitude contour, pitch contour, and mel-frequency cepstral coefficients as the features to generate a similarity score. Magnitude contours represent the variations in volume. Pitch contours represent the variations in pitches. Mel-frequency cepstral coefficients represent the contents of speech. “Evaluation using HMM and pitch contour” is another speech evaluation paradigm that does not require the existence of a standard speech. Alternatively, we evaluate a test speech based on its similarity to a hidden Markov models (HMM) and tone models. Viterbi decoding is used to segment each character in a continuous sentence. Then the score of each character is computed through the ranking of 411 possible syllables and a tone recognition system. ~ iii ~ 致謝 在清華資工六年的歲月,是我一生中很重要的階段,從大學部到碩士班,我要特別感謝我的導師,也是我的指導教授,張智星老師,無論在專業領域的啟發或是做人處事的應對都讓我受益良多,尤其是在研究所這兩年的時光更讓我學習到很多理論與實作的技巧,並順利完成這篇論文。 另外,我要感謝在實驗室裡一同努力、一同成長的同學、學長以及學弟妹們,謝謝你們創造了這麼棒的研究環境,讓多媒體資訊檢索實驗室越來越好, 我也要感謝我的父母以及家人,你們是我最好的依靠,有你們的支持與鼓勵,讓我沒有後顧之憂,可以專心於學業的研究, 最後,我要感謝今年和我一起畢業的女友,謝謝你豐富了我的人生,謝謝你總是陪伴在我的身邊為我加油打氣。 ~ iv ~ 目錄 第1章 緒論 .................................................................................................................. 1 1.1 研究主題 ............................................................................................................ 1 1.2 語音評分系統簡介 ............................................................................................ 3 1.3 本論文研究方向和主要成果 ............................................................................ 3 1.4 章節概要 ............................................................................................................ 4 第2章 利用標準語音資料的評分 .............................................................................. 5 2.1 評分系統簡介 .................................................................................................... 5 2.2 特徵參數擷取 .................................................................................................... 6 2.2.1 音量強度曲線 ............................................................................................ 7 2.2.2 基頻軌跡 .................................................................................................... 8 2.2.3 梅爾倒頻譜參數 ...................................................................................... 12 2.3 特徵參數正規化 .............................................................................................. 14 2.3.1 解決特徵參數長短不一的問題,Interpolation...................................... 14 2.3.2 解決麥克風差異性,Linear Scaling ....................................................... 14 2.3.3 解決個人音高差異性,Linear Shifting .................................................. 15 2.3.4 解決未知的通道效應,Cepstral Mean Subtraction ............................... 16 2.3.5 語者正規化,Vocal Tract Length Normalization ................................... 16 ~ v ~ 2.4 圖樣比對方法設計 .......................................................................................... 18 2.4.1 音量強度曲線比對方法 .......................................................................... 18 2.4.2 基頻軌跡比對方法 .................................................................................. 19 2.4.3 梅爾倒頻譜參數比對方法 ...................................................................... 20 2.5 相似度比對,DYNAMIC TIME WARPING .......................................................... 21 2.6 評分機制 .......................................................................................................... 26 2.7 評分參數調整 .................................................................................................. 27 第3章 利用HMM及音高資料的評分 .................................................................... 29 3.1 評分系統簡介 .................................................................................................. 29 3.2 語音辨識 .......................................................................................................... 31 3.2.1 語音辨識 .......................................................................................... 31 3.2.2 特徵參數擷取 .......................................................................................... 32 3.2.3 聲音單元介紹 .......................................................................................... 34 3.2.4 隱藏式馬可夫模型 .................................................................................. 34 3.2.5 語音辨識法則 .......................................................................................... 36 3.2.6 樹狀網路 .................................................................................................. 40 3.2.7 語音訊號的切割 ...................................................................................... 40 3.3 聲調辨識 .......................................................................................................... 41 3.3.1 國語聲調簡介 .......................................................................................... 41 ~ vi ~ 3.3.2 聲調辨識流程 .......................................................................................... 42 3.3.3 基頻軌跡參數化(一),Orthogonal Expansion ....................................... 44 3.3.4 基頻軌跡間的距離估測 .......................................................................... 45 3.3.5 基頻軌跡參數化(二),Chebyshev Approximation................................. 46 3.3.6 分群法則,K-means ................................................................................ 48 3.3.7 分類法則 .................................................................................................. 49 3.4 評分機制 .......................................................................................................... 51 第4章 結論與展望 .................................................................................................... 54 附錄一,Orthogonal Expansion基底推導 ................................................................ 56 參考文獻 ...................................................................................................................... 61 ~ vii ~ 圖表目錄 圖 2-1 利用標準語音資料之評分系統流程圖 ........................................................ 6 圖 2-2 音量強度曲線示意圖 .................................................................................... 8 圖 2-3 基頻擷取流程圖 ............................................................................................ 9 圖 2-4 AMDF示意圖一 .......................................................................................... 10 圖 2-5 AMDF示意圖二 .......................................................................................... 10 圖 2-6 AMDF示意圖三 .......................................................................................... 11 圖 2-7 基頻軌跡示意圖 .......................................................................................... 12 圖 2-8 12維梅爾倒頻譜參數擷取流程 ................................................................. 13 圖 2-9 音量強度曲線比對流程圖 .......................................................................... 19 圖 2-10 基頻軌跡比對流程圖 ................................................................................ 20 圖 2-11 梅爾倒頻譜參數比對流程圖 .................................................................... 21 圖 2-12 動態時間扭曲比對示意圖【1】 .............................................................. 22 圖 2-13 DTW彈性起始點與終點示意圖【1】 .................................................... 23 圖 2-14 常見的DTW限制條件【1】 ................................................................... 24 圖 2-15 距離轉換成分數示意圖一 ........................................................................ 26 圖 2-16 距離轉換成分數示意圖二 ........................................................................ 27 圖 3-1 利用HMM及音高資料的評分流程圖 ...................................................... 30 ~ viii ~ 圖 3-2 語音辨識流程圖 .......................................................................................... 31 圖 3-3 梅爾倒頻譜參數擷取流程 .......................................................................... 32 圖 3-4 39維梅爾倒頻譜特徵參數示意圖 ............................................................. 33 圖 3-5 模型(MODEL)與狀態(STATE)示意圖 ....................................................... 35 圖 3-6 STATE, STREAM, MIXTURE示意圖 ....................................................... 36 圖 3-7 樹狀網路示意圖 .......................................................................................... 40 圖 3-8 切音流程圖 .................................................................................................. 41 圖 3-9 各聲調基頻軌跡趨勢示意圖 ...................................................................... 42 圖 3-10 聲調訓練及辨識流程圖 ............................................................................ 43 圖 3-11 音節排名與對數機制示意圖 .................................................................... 52 圖 3-12 音節排名與分數關係示意圖 .................................................................... 53 ~ ix ~ 第1章 緒論 1.1 研究主題 本論文的研究主題是「語音評分」,包含「利用標準語音資料的評分」以及「利用HMM及音高資料的評分」,希望運用目前音訊處理和語音辨識的技術,分別從主觀和客觀兩個不同的角度來對語音評分。 利用標準語音資料的評分是一種比較主觀的評分方式,主要是使用圖樣比對(Pattern Matching)的方法,將欲測試的語音與標準語音資料作一比較,以期找出測試語音與標準語音的差異程度,並藉此對測試語音評分。 在本論文我們使用以下三個特徵參數,音量強度曲線(Magnitude)、基頻軌跡(Pitch Contour)以及梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients),音量強度曲線代表聲音音量強弱的變化趨勢,基頻軌跡代表聲音音高的起伏,梅爾倒頻譜參數則是代表聲紋,即語音的內容。 利用HMM及音高資料的評分是一種比較客觀的評分方式,主要是從聲音以及聲調兩方面著手,希望找出測試語音與聲學模型及聲調模型的差異程度,並藉此對語音評分。 在本論文我們使用以下兩個特徵參數,基頻軌跡以及梅爾倒頻譜參數,分別做為聲調辨識以及聲音辨識的特徵參數,在實作上我們是先使用Viterbi Decoding 將語音訊號切割成一個一個的字,即單音節,之後再對每一個音節比對聲音模型 ~ 1 ~ 及聲調模型,並將辨識結果配合我們預先設計好的評分機制轉換成分數,即對此 測試語音的評分。 ~ 2 ~ 1.2 語音評分系統簡介 本論文有兩個主體,「利用標準語音資料的評分」及「利用HMM及音高資料的評分」,我們分別實作兩個系統,第一個為英語評分系統,第二個是唐詩語音評分系統。 英語評分系統源自「利用標準語音資料的評分」,主要利用音量強度曲線、基頻軌跡及梅爾倒頻譜參數當作特徵參數,比較測試語音與標準語音的差異程度,並配合評分機制對兩者的差異程度評分。 唐詩語音評分系統源自「利用HMM及音高資料的評分」,主要是以聲學模型及聲調模型當作標準答案,將測試語音和這兩個模型比較,並依差異程度配合評分機制給與評分。 1.3 本論文研究方向和主要成果 本論文的研究方向為探討語音評分的方法,從定義評分所需的特徵開始,實驗許多可行的特徵比對方式,期許建立一套合理的語音評分系統。 本論文主要的成果為整合目前許多音訊處理及語音辨識相關的技術,運用在語音評分上,用以比較測試語音與標準語音的相似程度,並且建立合理的評分機制以及實作兩個不同機制的語音評分系統。 ~ 3 ~ 1.4 章節概要 本論文第二章將介紹「利用標準語音資料的評分」,並且將此單元所用到的一些技術於各小節中一一介紹,包含特徵參數的擷取、特徵參數正規化、圖樣比對流程、相似度比對(DTW)、評分機制的建立及評分參數的調整等等。 第三章則是介紹另一種語音評分的機制,「利用HMM及音高資料的評分」,此章包含了許多語音辨識及聲調辨識的技巧,諸如語音辨識的隱藏式馬可夫模型(Hidden Markov Model)、語音辨識法則、樹狀網路以及語音訊號的切割等等,聲調辨識的部分則包含了基頻軌跡參數化的兩種方法,Orthogonal Expansion 及Chebyshev Approximation以及分群法則和分類法則等等。 第四章則是簡短的結論以及未來展望。 ~ 4 ~ 第2章 利用標準語音資料的評分 本章將介紹一種語音評分的方法,「利用標準語音資料的評分」,顧名思義我們可以想見這種評分方式將會有一個標準答案,亦即存在一標準語音,而測試的語音則要愈像此標準語音愈好,愈像者分數將會愈高。 在實作上我們主要是使用圖樣比對的方法,將欲評分的語音與標準語音作一比較,以期找出測試語音與標準語音之間的差異程度,並藉此對測試語音評分。 2.1 評分系統簡介 利用標準語音資料的評分系統流程如圖2-1所示,主要分為三大部分, 第一部分為特徵參數的抽取(Feature Extraction),第二部分為圖樣比對(Pattern Matching)方法的設計,第三部分則為評分機制的建立,這三個部分將會在本章的各小節中逐一介紹,其中特徵參數的部分我們是採用以下三個特徵,分別是音量強度曲線(Magnitude)、基頻軌跡(Pitch Contour)以及梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients),經由圖樣比對之後我們提出一個評分機制,希望藉由此評分機制來對測試語音及標準語音之間的相似程度評分。 ~ 5 ~ 特徵擷取特徵參數正規化測試語音特徵參數 1.音量強度曲線圖樣比對2.基頻軌跡曲線評分機制Pattern相似程度評分3.梅爾倒頻譜參數Matching 特徵參數正規化特徵擷取標準語音特徵參數 1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數 圖 2-1 利用標準語音資料之評分系統流程圖 2.2 特徵參數擷取 一般來說,聲音訊號是一種時變性(time varying)的訊號,其波形的變化相當快速,但是若將觀察此訊號的時間單位縮小,我們可以發現,其變化相當的緩慢,關於這種現象,我們稱其具有「短時間穩定」(short time stationary)之性質【1】,通常我們將此觀察的單位稱為一個「音框」(frame),因此我們可以對聲音訊號做「短時距處理」(short time processing),以切割音框(taking frame)的方法進行各種特徵參數的擷取,在利用標準語音資料評分的部分我們採用以下三個特徵參數,分別是音量強度曲線(Magnitude)、基頻軌跡(Pitch Contour)以及梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients),各項特徵參數的擷取流程我們將在這節逐一介紹。 ~ 6 ~ 2.2.1 音量強度曲線 我們將取樣率16kHz的語音訊號經端點偵測(End-point Detection)【2】找出聲音頭尾端點之後取音框化,音框大小512點,約32毫秒,重疊(Overlap)為170點,約占一音框的三分之一,假設每一音框中的語音訊號以表示,其中S(m)n m,0,1,...,M,1n,0,1,...,N,1,,為音框總數,亦即音量強度曲線的長度,NM為音框大小。 音量強度曲線定義為, M,11 aveMag(n),S(m)  ,n,0,1,...,N,1,nMm,0 語音訊號經端點偵測後再求取音量強度曲線的示意圖如下頁圖2-2所示, ~ 7 ~ 圖 2-2 音量強度曲線示意圖 2.2.2 基頻軌跡 求取基頻軌跡(pitch tracking)的方法有很多種,在此我們採用Average Magnitude Difference Function【1】來擷取基頻,主要的流程如圖2-3所示, ~ 8 ~ 語音訊號低通濾波器音框化 每一音框皆經以下步驟 AMDF演算High Cliping找Local Minima計算基頻 圖 2-3 基頻擷取流程圖 關於圖2-3我們將每一步驟條列如下, 1. 低通濾波器(low pass filter) 我們將麥克風錄進來的聲音先做前處理,通過低通濾波器把雜訊和爆 音過濾掉。 2. 取音框(taking frames) 以512點為一框(frame),音框和音框之間重疊170點,如此可以避免 音框間的變化太過劇烈。 3. AMDF演算(Average Magnitude Difference Function) 接下來對每個音框做AMDF,找出相似波型重覆出現的週期,其公式 如下, M,,,11AMDF,(),S(m),S(m,,) ,nnnMm,0 為音框大小, 為平移量,由於在此公式中為定值,我們可以省略MM, ~ 9 ~ 計算。取一音框為例,其AMDF圖示如下, 圖 2-4 AMDF示意圖一 4. High clipping 經AMDF之後其local minima間的距離即是此聲音的週期,不過在算 local minima之前,我們先用High clipping過濾這些訊號,示意圖如下, 圖 2-5 AMDF示意圖二 ~ 10 ~ 5. 找local minima及算出頻率 經過AMDF及high clipping之後,我們可以利用相鄰local minima在 時間軸上的距離找出聲音的週期,取其倒數即為基頻,圖示如下, 圖 2-6 AMDF示意圖三 將每個音框重覆做步驟3到步驟5之後即可得到整個語音訊號的基頻軌跡,圖示如下, ~ 11 ~ 圖 2-7 基頻軌跡示意圖 2.2.3 梅爾倒頻譜參數 梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients),縮寫為MFCC【4】【18】,擷取方法簡述如下, 首先我們將16KHz語音訊號經預強調(Pre-emphasis)放大,主要是為了補償語音訊號受到發音系統所壓抑的高頻部分,係數是0.975,之後取音框化,音框長度為512點,重疊170點,每個音框乘上漢明窗(Hamming window),以補償 ~ 12 ~ 以音框為處理單位,在邊緣所造成的訊號不連續的現象,接著每個音框做快速傅利葉轉換(Fast Fourier Transform, FFT),求出每個音框的頻譜,再帶入一組20個三角帶通濾波器(triangular bandpass filter)求出每一個頻帶的輸出對數頻譜 ,最後再經餘弦轉換(cosine transform)即可求得L維的梅爾倒頻譜m,j,1,2,..,20j 參數, Pk,c,mcos((j,0.5)), k,1,2,...L ,kjP,1j p,20其中為三角帶通濾波器的數目,,即本論文使用12維的梅爾L,12 倒頻譜參數。 基本流程如下圖所述, 語音訊號音框化預強調 每一音框皆經以下步驟 三角帶通濾波器漢明窗傅利葉轉換 餘弦轉換MFCC 圖 2-8 12維梅爾倒頻譜參數擷取流程 ~ 13 ~ 2.3 特徵參數正規化 在利用標準語音評分所使用的三個特徵參數中,梅爾倒頻譜參數在擷取的過程中已經使用Vocal Track Length Normalization【19】的方法解決聲腔長度因人而異的變異性,然而音量強度曲線及基頻軌跡這兩個特徵仍存在一些個人的差異,例如麥克風的差異性及個人聲調長低不同等等,我們提出以下三種方法,Interpolation、Linear Scaling及Linear Shifting以期將這兩個特徵參數正規化,另外我們也使用Cepstral Means Subtraction的方法,用來作為通道效應的補償,細節將在以下小節逐一介紹。 2.3.1 解決特徵參數長短不一的問題,Interpolation 由於測試語料與標準語料的長度不一定完全一樣,所以我們使用一維的內差法,可以在音量強度曲線及基頻軌跡的解析度盡量不失真前提下將這兩個特徵參數的長度伸長或縮短,此方法可以有效解決特徵參數長短不一的問題。 2.3.2 解決麥克風差異性,Linear Scaling 經由麥克風錄進來的音量大小會隨著麥克風的不同而使著音量強度曲線aveMag(n)有些差異,我們假設其間存在一倍數的關係,若標準語料的音量強度 ~ 14 ~ 曲線定義為,測試語料之音量強度曲線定義為,我們希aveMag(n)aveMag(n)12 ,望找出一參數,,使得兩曲線之誤差越小越好,假設 e aveMag(0),,2,,,aveMag(1)2,,AaveMagn ,(),, 2,..., ,,aveMagN(,1)2,, aveMag(0),,1,,aveMag(1),1,,yaveMagn,(), 1,..., ,,aveMagN(,1)1,, ,,兩曲線存在的關係,由Least-squares estimator【5】我們可以得知以下A,,e,y 的結果, ,,,,T,1T ,,(AA)Ay '微調後的測試語料音量強度曲線假設為,其公式如下, aveMag(n)2 ,' aveMag(n),A,,aveMag(n)*,, n,0,1,...,N,122 2.3.3 解決個人音高差異性,Linear Shifting 由於每個人的聲調高低不一致,通常女生的聲調較高,男生的聲調略低,而且我們語音評分著重在聲調的抑揚頓挫亦即其基頻軌跡高低起伏之變化趨勢,因此我們有必要對聲調高低作一平移(Shifting)【6】的動作以期解決此個人的差異性,我們所用的方法如下, ~ 15 ~ 假設標準語料之基頻軌跡以、測試語料之基頻軌跡以表示,其中f(x)f(x)12x,0,1,...,N,1,為基頻軌跡的長度,我們以為基準調整,調整後Nf(x)f(x)12 ˆ的基頻軌跡假設為,定義如下, f(x)2 N,1N,111ˆ f(x),f(x),f(k),f(k),,2221NNk,0k,0 此平移的動作即是將兩段基頻軌跡的平均值調成一致。 2.3.4 解決未知的通道效應,Cepstral Mean Subtraction 倒頻譜平均值消去法(Cepstral Mean Subtraction)【7】主要的精神就是將倒頻譜參數每一維視為隨機變數,將其期望值改成零。 公式如下, ~x(t),y(t),bcc T 1b,y(t),cT,1t b 其中為估測出來的通道值,為觀察到的特徵參數,共有T個音框,y(t)c ~為補償後的特徵參數。 x(t)c 2.3.5 語者正規化,Vocal Tract Length Normalization 我們使用VTLN (Vocal Tract Length Normalization)的方法【19】解決語者正 ~ 16 ~ 規化的問題,主要原理是利用第三共振峰(F3)頻率較不易變動的特性,藉以調整 測試語音的線性頻率尺度,正規化係數定義為, , 參考語音的平均F3值除以測試語音的平均F3值。 有了正規化係數之後就可以用下式來調整測試語音的頻率尺度, , F,,,FN 在實作上正規化係數是運用在圖2-8的傅利葉轉換及三角帶通濾波器之, 間,主要的精神即是將測試語音的原始頻率利用正規化係數對應到調整後的F,頻率。 FN ~ 17 ~ 2.4 圖樣比對方法設計 本節我們將介紹如何找出測試語音及標準語音兩者之間的差異程度,主要的精神是利用圖樣比對的方法【8】,針對我們使用的三個特徵分別設計不同的比對方式,對於音量強度曲線我們使用Interpolation及Linear Scaling來調整參數,調整後我們再求取此特徵的最小Dynamic Time Warping平均誤差,對於基頻軌跡我們使用Interpolation及Linear Shifting來調整參數,調整後我們一樣找其最小的DTW平均誤差,至於梅爾倒頻譜參數的比對我們首先是將特徵先經由Cepstral Mean Subtraction的方法解決未知的通道效應,再採取動態時間扭曲(Dynamic Time Warping)的方法,找出測試語音與標準語音最相似的音框對應及平均DTW距離。Dynamic Time Warping的實作我們將於下一單元介紹。 2.4.1 音量強度曲線比對方法 音量強度曲線的比對方法設計如圖2-9所示,假設標準語音的音量強度曲線為v1,測試語音之音量強度曲線為v2,我們以v1為基準去調整v2後再比對即可以得到兩者的距離,代表其差異程度。 dist1 我們以Interpolation來解決特徵長度不一致的問題,並以Linear Scaling解決麥克風差異性,在算距離時我們是採用DTW的方法,求取兩段特徵最相近的平均距離。 ~ 18 ~ 在實作上,我們會將測試語音的特徵在時間軸上左右平移幾個音框,以彌補特徵可能沒有對齊的因素,再重覆比對流程並取距離最小者為兩特徵之間的平均距離。 dist1 比對流程如下頁圖2-9所示, 標準語音之音量強度曲線設為v1 測試語音之音量強度曲線設為v2 v1 以v1為基準調整v2 A.Interpolation成v1的長度v2new_v2算距離距離(dist)1B.以v1為準做Linear Scaling 差異程度 圖 2-9 音量強度曲線比對流程圖 2.4.2 基頻軌跡比對方法 基頻軌跡的比對方法設計大致如同上一小節音量強度曲線的方法,所不同的是特徵在Interpolation成相同長度後是以Linear Shifting來解決個人音高不一致的差異,在算距離時我們是採用DTW的方法,求取兩段特徵最相近的平均距離。 在實作上,我們會將測試語音的特徵在時間軸上左右平移幾個音框,以彌補特徵可能沒有對齊的因素,再重覆此比對流程並取距離最小者為兩特徵之間的平均距離。 dist2 ~ 19 ~ 詳細比對流程如下圖所示, 標準語音之基頻軌跡設為v1 測試語音之基頻軌跡設為v2 v1 以v1為基準調整v2 A.Interpolation成v1的長度v2new_v2算距離距離(dist)2B.以v1為準做Linear Shifting 差異程度 圖 2-10 基頻軌跡比對流程圖 2.4.3 梅爾倒頻譜參數比對方法 梅爾倒頻譜參數的比對我們首先是將特徵先經由Cepstral Mean Subtraction 的方法解決未知的通道效應,再採取動態時間扭曲(Dynamic Time Warping)的方法,找出測試語音與標準語音最相似的音框對應及平均距離,主要的流程如dist3圖2-11所示,在實作上,我們會將測試語音的特徵在時間軸上左右平移幾個音框,以彌補特徵可能沒有對齊的因素,再重覆此比對流程並取距離最小者為兩特徵之間的平均距離。 dist3 ~ 20 ~ 標準語音之梅爾倒頻譜參數設為v1 測試語音之梅爾倒頻譜參數設為v2 Cepstral Mean Subtractionv1new_v1 Cepstral Mean Subtractionv2new_v2算距離距離(dist)3 差異程度Dynamic Time Warping 圖 2-11 梅爾倒頻譜參數比對流程圖 2.5 相似度比對,Dynamic Time Warping 兩段特徵參數的距離估測我們採用「動態時間扭曲」(dynamic time warping) 的方法,簡稱DTW【6】【17】,此方法在語音訊號處理中是一種很常用來做相似度比對的方法,其主要的精神在於提供一個具有更大彈性的相似度比對法,使測試資料能透過伸展或壓縮,找到與參考資料間最小誤差的非線性對應。 舉一例子,假設我們的測試資料為t,長度為I,參考資料為r,長度為J,下圖是常見的動態時間扭曲比對示意圖, ~ 21 ~ 圖 2-12 動態時間扭曲比對示意圖【1】 DTW的主要目的便是在t、r構成的平面上找出一條最佳的對應路徑 ,即是使得測試資料與參考資料間的距離D為最小,並且使得 path(i,j)t(i)kkk k對應到 ,其中, = 1, 2, …, K, 與 都必須遞增,以數學式子表示r(j)ij kkk 如下, K D,d(i,j),kk k,1 d(i,j),dist(t(i),r(j))kkkk ~ 22 ~ 其中 可以為任意一種距離測量方式,最常見的就是歐幾里得距d(i,j)kk 離,在此我們是計算測試語音及標準語音之兩組梅爾倒頻譜參數以音框為單位的歐幾里得距離。 在實際運算上,我們可以透過動態規劃的方式找出最佳的路徑。首先我們先定義出可能的起始點與終點,A、D分別為參考資料可能的起點範圍與終點範圍,B、C分別為測試資料可能的起點範圍與終點範圍, 如圖2-8所示。因此,我們可以定義出在起始點與終點的, D D(i, 0),0, i,Bkk D(i, 0),Inf, i,Bkk D(0, j),0, j,Akk D(0, j),Inf, j,Akk 圖 2-13 DTW彈性起始點與終點示意圖【1】 至於終點範圍的限制,則可以在動態規劃最後回溯最佳路徑時予以限制。 ~ 23 ~ 基於局部最佳值能導致整體最佳值的概念,定義出每一點 可能的D(i,j)kk路徑來源如下, parent(i,j)kk D(i,j),parent(i,j),d(i,j)kkkkkk parent(i,j),min(D(p,q)) , p,i,q,j kkkk d(i,j),dist(t(i),r(j))kkkk 其中,p與q的限制可以根據各種不同的比對資料及問題類型予以變化。下圖為幾種在語音辨識上較常見的p、q限制, 圖 2-14 常見的DTW限制條件【1】 ~ 24 ~ ~ 25 ~ 2.6 評分機制 本小節將介紹利用標準語音資料評分的評分機制,首先我們先設定測試語音與標準語音兩相同特徵比對之後的結果,其距離與分數間的關係,設定公式如下, 100score, b1,a(dist) 由這個公式我們就可以將距離轉換成分數,舉一例子,假設我們可以經由實驗得到測試語音與標準語音的基頻軌跡相似度在分數為90分時,距離大約為5,分數在60分時,距離大約為6,如此我們就可以求得a和b,有了a和b之後就可以得到距離和分數的關係圖, 90 85 80 75Score 70 65 6055.15.25.35.45.55.65.75.85.96Distance 圖 2-15 距離轉換成分數示意圖一 使用本論文的公式即使距離比我們設定的大或小時皆可以合理的轉換分數到100跟0的區間裡,如下圖所示, ~ 26 ~ 100 90 80 70 60 50 40Score 30 20 10 033.544.555.566.577.58Distance 圖 2-16 距離轉換成分數示意圖二 2.7 評分參數調整 當一測試語音進來時,我們分別和標準語音比較音量強度曲線、基頻軌跡及梅爾倒頻譜參數三個特徵,分別算出距離後,距離轉分數的公式,,dist,dist,dist123 可以定義如下, 100100100score,w,,w,,w,123bbb1231,a(dist)1,a(dist)1,a(dist) 112233 a,a,a,b,b,b,0, w,w,w,1123123123 為距離轉成分數的參數,為三個特徵的權重。 a,a,a,b,b,bw,w,w123123123 為了求得我們設計了以下實驗,首先我們先收集10句a,a,a,b,b,b,w,w,w123123123 CNN互動英語的句字,當成標準語音,再請實驗室同學依此10句錄音,當成測試語音,總共收集了320句測試語音,每一句跟標準答案比對,會算出以下三個距離, ,, dist,dist,dist123 假設每句的分數皆為90分,另將每句測試語音再跟其它標準語音(內容不同者) ~ 27 ~ 比對,亦可以得到三個距離,假設其分數為30分,收集了這些距離及分數之後,我們使用MATLAB的fminsearch函式,利用Simplex Downhill Search的方法,即可找出不錯的組合,有了這組參數之後,只要我們a,a,a,b,b,b,w,w,w123123123 算出測試語音及標準語音三個特徵的距離,就可以轉換其對應的,,dist,dist,dist123 分數。 ~ 28 ~ 第3章 利用HMM及音高資料的評分 3.1 評分系統簡介 本章以長庚大學語音實驗室【9】所收集的語料為基礎,從聲音及聲調兩方面著手,期望由比較客觀的角度來對語音訊號評分。 利用HMM及音高資料的評分包含許多目前語音辨識常運用到的技術,例如在聲音辨識方面包含了隱藏式馬可夫模型(Hidden Markov Model)、樹狀網路(Tree Net)及維特比演算法(Viterbi Algorithm)等,在聲調辨識方面則包含了諸如Orthogonal Expansion、Chebyshev Approximation、K-means分群法及分類器的設計等等技術,這些方法將在之後的小節裡有詳細的介紹。 簡單的語音評分流程如下圖所示,一句測試語音進來之後,我們先斷詞將一句話分成一個一個的字,再分別對每個字做聲音及聲調的辨識,之後再依辨識結果的排名配合評分機制給與評分。 ~ 29 ~ 特徵擷取語音訊號特徵參數語音訊號的切割單音節 39維的梅爾倒頻譜參數Viterbi Decoding每一音節皆經以下步驟 語音辨識音節排名 評分機制評分 聲調辨識聲調排名 -1 利用HMM及音高資料的評分流程圖 圖 3 ~ 30 ~ 3.2 語音辨識 3.2.1 語音辨識流程 語音辨識整個流程包含特徵向量的擷取、隱藏式馬可夫模型訓練以及語音辨識和音節轉文字模組等,以下為其基本流程圖, 特徵擷取音節轉文字語音訊號特徵參數語音辨識音節結果 Viterbi Search using39維的梅爾倒頻譜參數 1.聲學模型 Hidden Markov Model 2.語言模型 Tree Net 3-2 語音辨識流程圖 圖 整個語音辨識的流程如上圖所示,從一語音訊號經過了特徵擷取,取出語音中的特徵,在此我們採用39維的梅爾倒頻譜參數當作特徵參數,然後利用這些特徵參數透過聲學模型及語言模型,利用維特比演算法(Viterbi algorithm)找出最相似的音節,之後再經過音節轉文字即可輸出結果,其中特徵參數擷取、聲學模型,隱藏式馬可夫模型、語言模型,樹狀網路、維特比演算法等都是語音辨識中很重要的核心技術,我們將會在以下小節逐一介紹。 ~ 31 ~ 3.2.2 特徵參數擷取 本小節將介紹梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients)的求法,縮寫為MFCC,以下為擷取的基本流程, 語音訊號音框化預強調 每一音框皆經以下步驟 三角帶通濾波器漢明窗傅利葉轉換 餘弦轉換MFCC 對數能量 圖 3-3 梅爾倒頻譜參數擷取流程 首先我們將16KHz語音訊號經預強調(Pre-emphasis)放大,主要是為了補償語音訊號受到發音系統所壓抑的高頻部分,係數是0.975,之後取音框化,音框長度為512點,重疊170點,每個音框乘上漢明窗(Hamming window),以補償以音框為處理單位,在邊緣所造成的訊號不連續的現象,接著每個音框做快速傅利葉轉換(Fast Fourier Transform, FFT),求出每個音框的頻譜,再帶入一組20個三角帶通濾波器(triangular bandpass filter)求出每一個頻帶的輸出對數頻譜 ,經由研究【10】發現,人類對於低頻聲音的感知能力較強,約m,j,1,2,..,20j ~ 32 ~ 呈線性關係,而對於高頻聲音的感知能力則較弱,約呈對數關係,所以在設計三角帶通濾波器時就以低頻多取、高頻少取為其精神所在,最後再經餘弦轉換(cosine transform)即可求得L維的梅爾倒頻譜參數, Pk, c,mcos((j,0.5)), k,1,2,...L,kjP,1j p,20其中為三角帶通濾波器的數目,,即本論文使用12維的梅爾L,12 倒頻譜參數, 本論文使用12維的梅爾倒頻譜參數與1維的對數能量,組成基本的13維特徵參數,再以這13維做為基礎,取其一階差量倒頻譜參數與二階差量倒頻譜參數,全部合起來總共39維的梅爾倒頻譜特徵參數,示意圖如圖3-4所示。 差量的意義為倒頻譜參數相對於時間的斜率,也就是代表倒頻譜參數在時間上的動態變化程度。其公式如下: MM ,,,,,,C,,t,C,,t,,,,,,Ct,,,mmm,,M,,,1,C(t),,,m,1,2,...,L mMM22,,2,,,,,,M,,1 這裡的M取2,代表視窗寬度為5個音框,代表哪一個音框。 t 差量函式差量函式(MFCC,logEnergy)(MFCC,logEnergy)'(MFCC,logEnergy)''ABC 12維的梅爾倒頻譜參數 加上1維的對數能量 (MFCC,logEnergy),B,C 組成總共39維的特徵參數A(MFCC,logEnergy)' (MFCC,logEnergy)'' 圖 3-4 39維梅爾倒頻譜特徵參數示意圖 ~ 33 ~ 3.2.3 聲音單元介紹 國語語音中每一個音節即代表一個字,而音節又是由音素或是聲韻母所組成,目前我們使用的聲學模型是不考慮聲調的,因此國語語音的音節約有415個,在本章我們使用的聲音單元【9】是音節內右相關的聲學單位,舉一個例子,例如「家」這個字(即一個音節),其長庚拼音為「jia」,其音節內右相關的聲音單元為「sil+j」,「j+i」,「i+a」,「a+sil」,此聲音單元將視為語音的最小單位,並為每一單元訓練其聲學模型,意即每一單元都有一個模型(Model),本論文的聲學模型是採用隱藏式馬可夫模型。 3.2.4 隱藏式馬可夫模型 本章語音辨識所用到的聲學模型是以隱藏式馬可夫模型(Hidden Markov Model, HMM)為基礎所訓練出來的,經由前人的研究【9】 【10】【11】,我們得知隱藏式馬可夫模型基本上是一種雙重隨機過程,而之所以稱為隱藏式是因為其中有一組隨機過程是隱藏的,看不見的,在語音中就如同人類在發聲的過程中其發聲器官狀態變化是看不見的,好比喉嚨、舌頭與口腔的變化是不可能從可觀測的語音訊號序列看出來的。而另一組隨機過程稱為觀測序列(observation sequence),它是由狀態觀測機率(state observation probability)來描述在每個狀態下觀測到各種語音特徵參數的機率分佈。 ~ 34 ~ HMM的特性正好適用於描述語音的特性,我們可以把每個狀態看成是聲道(vocal tract)正處於某個發聲組態(articulatory configuration),而狀態觀測機率則描述了在某個發聲狀態下聽到各種聲音的可能性。 HMM的狀態觀測機率函式是採用高斯混合密度函數或稱高斯混合模b(o)jt 型(Gaussian Mixture Model, GMM)。 在本論文中每一個聲音單元皆有一個HMM,一個模型有3或5個狀態(State),示意圖如下, Model 12345 State 圖 3-5 模型(Model)與狀態(State)示意圖 狀態觀測機率函式定義【12】為, b(o)jt rsM##Ss,, b(o),wG,,jtjsmjsm,, ,,s1m1,, #S其中代表Stream的數目,為Stream的權重(weight),在本論文中為1,r#Mss jwG代表Steam為時,mixture的數目,及則分別代表在狀態下,Steamsjsmjsm 為時,mixture為時高斯函數的權重及高斯機率密度函數,G的定義如下, smjsm ~ 35 ~ 11,,T,1G,g(x;,,),exp,(x,),(x,),,, jsm,,d2,,,(2), ,d其中為維度,及分別代表此高斯機率密度函數的平均值(mean)及共變異矩, 陣(Covariance Matrix),這些參數決定了此機率密度函數的特性,諸如函數形狀的中心點、寬窄及走向等。 #S,3 在本論文中我們使用3個Stream,即,mixture數目則有兩組,一組為(6, 2, 2),另一組為(10, 10, 10),每組3個數值依序代表每一個stream包含mixture的個數,以第一組(6, 2, 2)為例,圖示如下, 2 State s1 s2 s3 Stream Mixture m1, m2, m3, m4, m5, m1, m2 m1, m2 ,,,,,,… … m6 …… , , , 圖 3-6 State, Stream, Mixture示意圖 3.2.5 語音辨識法則 在本論文中的聲學模型是採用長庚大學語音實驗室所訓練出來的,我們是做語音訊號與已建立之聲學模型的比對動作,當然,在辨識前,語音訊號也是經由 ~ 36 ~ 特徵參數擷取的動作,且參數的定義也如之前章節所述,而要辨識這一段語音訊號,其實就是決定觀測序列究竟由哪些模型的序列來描述是最恰當的,我們使用維特比演算法(Viterbi algorithm)來找出與觀測序列匹配的最佳狀態序列。 首先我們先介紹在實作上如何求狀態觀測機率,由上一小節我們得知 b(o)jt M#3s,, ,b(o)wG,,jtjsmjsm ,, s,,m11,, 取對數(log)後得到 M#3s,, ,,logwG,,jsmjsm ,,s,,m11,, 我們以stream1為例,介紹其對數機率求取過程,stream2及stream3亦同理,在stream1的對數機率為 ,,logwG,wG,... 1122 可簡化成【12】 logwG,logwG,...,,,,1122 ,,,,,,,,,logw,logG,logw,logG,...1122 而高斯函數如上一小節所述 11,,T,1G,exp,(x,),(x,),, ,,d2,,,(2), 因此 11dT,1,,log,,G,,log(2),,(x,),(x,),,, 22 ~ 37 ~ 我們定義 d,,GConst,log(2,),   GConst可以依下式求得 GConst,dlog(,2),log(,)  13 ,13,log(2,),var[i], i,1 T,1(x,,),(x,,)亦可依以下方法求得 另一部分 1T,(x,),(x,),, C0..0A,,,, ,,,,0D0..B,,,,,AB....,,,,,,,,..0..0.. ,,,,0..0....,,,,   1*13     13*13     13*1 A,, ,,B,,,ACBD....,,, ,,.. ,,..,,   1*13      13*1 22,AC,BD,...   1*1(scalar) 了解如何求取狀態觀測機率之後,接著介紹維特比演算法, b(o)jt ,,首先假設觀察序列的最佳狀態序列為,並以,,,(i)O,o,o,...,oq,,,q,q,...,q12Tt12T代表從頭開始,直到時間點時的觀測值為狀態的最大機率,以下式表示, itot , ,(i)maxP,,q,q,...,q,qi,O|,,, t12t,1tq,q,...,q12t,1 由【4】我們可得知 ~ 38 ~ ,(i),[max,(i),a],b(o) t,1tijjti a,其中為Hidden Markov Models,為狀態i跳到狀態j的轉移機率(Transition ijprobability),為狀態j時出現的觀測機率。 b(o)ojtt維特比演算法【4】的步驟如下, 1. 初始化, ,,(i),b(o)11ii ,(i),0,  1,i,N1 用以回溯(Backtracking) ,(j)t 2. 遞迴步驟, ,,(j),[max(i),a],b(o)tt,1ijjt1,i,N ,(j),argmax[,(i),a],  2,t,N,  1,j,Ntt,1ij1,i,N 3. 結束(Termination), *,P,max[(i)]T1,,iN *q,argmax[,(i)]TT1,i,N4. 回溯步驟(state sequence backtracking) **q,,(q), t,T,1,T,2,...,1 tt,t,11如此即可找出最佳狀態序列。 ~ 39 ~ 3.2.6 樹狀網路 經由研究【9】我們可以得知,樹狀網路(tree net)可以有效的提升辨識率及降低音節的複雜度,因此本論文採用樹狀網路來做為語言模型,樹狀網路的基本精神以圖3-7為例作一說明,假設欲辨識的詞只有「台北縣」、「台中市」、「新竹縣」、「新竹市」四個詞,我們可以看出「台北縣」及「台中市」兩個詞,都是以「台」為樹根,分別長出「北」跟「中」兩字,因為只接這兩字而已,所以搜尋的空間相對的減少,除了提升辨識率之外,搜尋的速度也會提升許多。 台 北 縣 NULL NULL 中 市 新 竹 縣 市 圖 3-7 樹狀網路示意圖 3.2.7 語音訊號的切割 我們將語音訊號切割主要的目的是希望將連續的語音切割成獨立的音節,這樣才容易對一句話中的每一個字評分。在本論文中,我們使用Viterbi decoding ~ 40 ~ 的方法【13】,亦即在已知語音訊號內容的前提下,解出語音訊號的狀態序列,圖3-8說明了切音的流程。 特徵擷取語音訊號特徵參數Viterbi DecodingState Sequence Viterbi Decoding using由State Sequence39維的梅爾倒頻譜參數 1.聲學模型我們可以解出Model Hidden Markov ModelSequence,即可找出 2.語言模型每個音節間的FrameID, 1-Way Linear Net因此可將語音訊號切割 成音節的單位 3-8 切音流程圖 圖 3.3聲調辨識 3.3.1 國語聲調簡介 國語語音有兩個明顯的特徵,一是有聲調性、二是單音節,亦即每一個中文字皆對應到一個音節,每一個音節有一個聲調,在聲調方面,有一聲調、二聲調、三聲調、四聲調及輕聲調共五種聲調(本論文不考慮輕聲調)。由前人的研究【14】我們可以得知這幾種聲調間的差異性,主要在於基頻軌跡(pitch contour)變化的趨勢,各聲調的基頻軌跡大致如下圖所示, ~ 41 ~ 一聲 二聲 三聲   四聲 圖 3-9 各聲調基頻軌跡趨勢示意圖 由上圖我們可以觀察得知,一聲調的基頻軌跡接近一水平線,二聲調的基頻軌跡先持平後持續上揚,三聲調的基頻軌跡先平緩下降後再上揚,四聲調的基頻軌跡則是由高處持續下降。在台灣地區的語言習慣中,三聲調經常是發音不完全的,因此其尾端上揚的特性並不明顯,如此也增加了聲調辨認的困難度。 3.3.2 聲調辨識流程 這一小節我們要介紹聲調辨識系統的流程,包括特徵擷取、語料訓練以及聲調辨識等,如下圖所示, ~ 42 ~ 基頻擷取特徵擷取語音訊號特徵參數基頻軌跡 1.Orthogonal ExpansionAMDF 2.Chebyshev Approximation Training分群法則特徵收集四聲調的碼本 Testing分類法則四聲調的碼本辨識結果 3-10 聲調訓練及辨識流程圖 圖 整個聲調辨識系統如上圖所示,我們可以得知,從輸入一語音訊號,經過基頻擷取(pitch tracking)之後,我們得到了一段基頻軌跡(pitch contour),由於基頻擷取我們在第二章已經介紹過了,所以在此不在贅述,我們從特徵參數的擷取,使用Orthogonal Expansion及Chebyshev polynomial fitting來表示一段基頻軌跡開始介紹,之後我們介紹聲調辨識系統主要的兩個部分,一個是語料的訓練(Training),一個是聲調的辨別(Testing)。在語料訓練方面,我們採取K-means分群法,將每一聲調的所有特徵係數分群找其代表點,即得到代表此一聲調的碼本(Code Book),由於每一個聲調有兩種參數化表示法(Orthogonal Expansion及Chebyshev polynomial fitting),因此每一聲調有兩組碼本,分別定義為 及,在聲調辨別方面,我們將欲CodeBook(j),j,1,...4CodeBook(j),j,1,...4OC 測試的語料求取其特徵參數後與之前訓練出來的碼本進行1-Nearest Neighbor的分類,即會得到及,經距離的正規化MinDist(j),j,1,...4MinDist(j),j,1,...4OC ~ 43 ~ 後找其距離最小的類別,即為聲調辨識的結果。 3.3.3 基頻軌跡參數化(一),Orthogonal Expansion 每一段基頻軌跡我們可以用一個三次的多項式來表示,如 123 f(x),a,ax,ax,ax , x,0,1,...,N0123 不過由於每段基頻軌跡的長度不一定,因此我們有必要對其長度做一正規化,如下式所示,即將其長度正規化至[0,1]的區間, iiii123 f(),a,a(),a(),a() , i,0,1,...,N0123NNNN 接著我們利用Gram-Schmidt Orthogonalization Procedure將基底 iii23 ,1,,(),(),NNN 轉成 iiii ,,(),,(),,(),,(),0123NNNN 兩兩互相垂直且內積(Inner Product)等於一的基底【15】,如下列式子所示, i,(),10N 1i12Ni12,(),(),(,)1NN,2N2 3i180NiiN,1122,()[][()],,,, 2N(N,1)(N,2)(N,3)NN6N ~ 44 ~ 5iN280012,,()[],3NN,N,N,N,N,(1)(2)(2)(3)(4) 2iiN,N,iN,N,3632(1)(2)32     ,,,[()()()]22NNN2NN1020 詳細之公式推導請參考附錄一。 有了這些基底之後,每一段的基頻軌跡即可利用這些基底來逼近,如下式所示, 3iiˆ,faiN(),,()  , ,0,1,...,,jjNN,0j Niiii1whereaff  ,,(),,(),,(),,() ,jjjNNNNN,1,0i 3.3.4 基頻軌跡間的距離估測 兩段基頻軌跡間的距離我們定義為其root-mean-square的距離。假定兩段等 iif長的基頻軌跡及f,其距離可表示為, ()()12NN N1ii212D,{[f(),f()]} ,12N,1NN,0i iif由上節可知我們可以將基頻軌跡及f以相同的基底逼近,如下式, ()()12NN 3iiˆf(),a,,()  , i,0,1,...,N ,11jjNNj,0 3iiˆf(),a,,()  , i,0,1,...,N ,22jjNNj,0 因此兩段逼近後基頻軌跡的距離如下式所示, ~ 45 ~ Nii1'212ˆˆDDff,,{[(),()]},12NNN,1i,0 N33ii1212a a ,{[,,(),,,()]}jjjj,,,12NNN,1i,j,j,000 N331ii12,,,{[(a,a)(a,a),()()]},,,1j2j1k2kjkN,1NN000i,jk,, 33ii12,{(a,a)(a,a),,(),(),} ,,,,1212jjkkjkNN00jk,, 3212,{(a,a)},12jjj,0 由上式我們可得知,兩段基頻軌跡間的距離可以逼近於與(a,a,a,a)10111213 的Euclidean distance。 (a,a,a,a)20212223 3.3.5 基頻軌跡參數化(二),Chebyshev Approximation Chebyshev多項式【16】可以表示成,n為其degree,其公式如下, T(x)n T(x),cos(narccosx)n 經推導可以得到以下相同意義的多項式, T(x),10 T(x),x1 2 T(x),2x,12 3 T(x),4x,3x3 42 T(x),8x,8x,14 … T(x),2xT(x),T(x)  n,1n,1nn,1 下圖為x值在[-1,1]區間時,到的值, T(x)T(x)05 ~ 46 ~ T(x)10 T(x)10.8 0.6 T(x)0.42 0.2 (x)0nTT(x)3-0.2 -0.4 -0.6T(x)4-0.8 T(x)5-1 -1-0.8-0.6-0.4-0.200.20.40.60.81 x 當x值在[-1,1]的區間時Chebyshev多項式有n個根(即有n個x使得T(x)n ),這些x的值如下式所示, T(x),0n (k,12),k,1,2,...,n x,cos()n Chebyshev多項式在向量觀點為兩兩互相垂直,亦即存在著正交(orthogonal)的關係,因此可以用來當成基底以表示一段基頻的軌跡(pitch contour),以下是其Chebyshev多項式彼此之間的關係, i,j,mIf are zeros of and if , then x(k,1,2,...,m)T(x)mkm 0,  ij,,m,T(x)T(x)m/2, ij0,,, ,,ikjk,1k,m,  ij0,,, 由【16】我們可以得知以下這個定理, f(x)If is an arbitrary function in the interval [-1,1], and if N coefficients ~ 47 ~ , are defined by c,j,0,1,...N,1j N2cfxTx()(),,jkjkN,1k Nkjk2(12)(12),,,,fT  [cos()](cos()),,jNNN,1k Then the approximation formula 1N,1,, f(x)cT(x)c, ,,0kk,,20,,k, 藉由這個定理,我們可以將一段基頻軌跡用Chebyshev係數來c,j,0,1,...N,1j 表示,經由實驗我們發現N=6時即有不錯的效果。 3.3.6 分群法則,K-means 分群法(clustering)【17】通常使用在將資料分類成群的應用上,主要的目的即是將資料分成一群一群(group),讓相似的資料可以叢聚在一起,並將每個群取一代表點來代表整個群組,如此一來便可達到資料縮減的目的,也可以減輕計算量,在聲調辨識的實驗中我們將採用K-means分群法,期許找出每個聲調最有代表性的代表點。 K-means分群法屬於分割式分群法(partitional clustering)的一種,在演算法一開始即給定分群的叢聚數目,然後藉著自動化的反覆修正,達到分群的目的,K-means演算法的步驟概述如下, ~ 48 ~ 1. 隨機選取K個起始點,分別視為K群的群中心 2. 對每一個資料x,找其最接近之群中心,並將x加入該群,隨即重新計算 該群的群中心(該群中原有的資料點加上x後的平均向量) 3. 對每一個資料點,檢查目前與其最接近的群中心是否和他群組分配一致, 如果不是,則回到步驟2。 3.3.7 分類法則 由本章前面幾節所述,我們將每一個聲調以兩種參數化表示法(Orthogonal Expansion及Chebyshev polynomial fitting)表示,因此每一聲調經由訓練之後會有兩組碼本,分別定義為及,在聲CodeBook(j),j,1,...4CodeBook(j),j,1,...4OC 調分類方面,我們將欲測試的語料求取其特徵參數後與之前訓練出來的碼本進行1-Nearest Neighbor的分類,即會得到及MinDist(j),j,1,...4O ,MinDist代表測試語料跟每一聲調代表點中最小的距離,MinDist(j),j,1,...4C 經由實驗我們可以發現若定義以下分類器結合(classifier combination)的方法,將可達到最佳的分類效果, ComDist(j),     MinDist(j)/max(MinDist) OO       ,MinDist(j)/max(MinDist)  ,j,1,...4CC ComDist經距離的正規化後加總找其距離最小的類別,此類別所屬的聲調即 ~ 49 ~ 為聲調辨識的結果。 ~ 50 ~ 3.4 評分機制 「利用HMM及音高資料的評分」評分機制的設計主要是針對聲音及聲調辨識的結果加以評分,由於我們將語音訊號切成一個一個的單音節,所以我們對每個單音節評分,整句語音的分數即是所有單音節分數的平均。 每個音節在聲音辨識方面,我們是利用Viterbi Search找出此音節分別跑所有415個音節的Net的對數機率,即跑第1個音節的Net之後得到1個對數機率、跑第2個音節的Net之後得到第2個對數機率,依此類推,我們將機率排序之後會得到如下圖的機率分佈, x軸代表音節依對數機率的排名,從第1名到415名,y軸是代表對應的對數機率,由此圖我們可以看出對數機率從第1名到第60名下降的斜率較急促,第60名到第350名左右的下降斜率就比較緩慢,350名之後下降的斜率又急速向下,此對數機率的分佈相當合理,原因如下推論,前面幾十名的音節大多相差 ~ 51 ~ 一兩個模型(Model),跟正確音節差異性相較於五六十名之後的音節會較大,因為經由實驗我們發現五六十名之後的音節幾乎所有模型(Model)皆跟正確音節擁有的模型(Model)完全不同。 我們定義在排名兩百名之後的音節由於跟測試語音差異性太大了,所以我們只給20分,在第1名到第200名的我們則依比率給分,評分區間從100到20,第1到200名的音節圖示如下, 圖 3-11 音節排名與對數機制示意圖 評分示意圖如下, ~ 52 ~ 3-12 音節排名與分數關係示意圖 圖 每個音節在聲調辨識方面,我們是將這個音節的基頻軌跡轉成特徵之後再比對聲調模型,若正確聲調的排名落在前兩名的話,即代表此音節的聲調過關,若排名落在後兩名的話,我們就會對此音節的分數扣分。 ~ 53 ~ 第4章 結論與展望 本論文的研究主題是「語音評分」,包含「利用標準語音資料的評分」以及「利用HMM及音高資料的評分」兩個部分,並經由實作英語評分系統以及唐詩語音評分系統分別應證理論的可行性。 「利用標準語音資料的評分」所運用到的技術,包含特徵參數的擷取、圖樣比對方法的設計以及評分機制的建立三大部分,藉由英語評分系統的設計讓我們可以整合這些技術成為應用,經由實驗我們可以得到三個特徵的權重,分別是 16.7%及74.8%,由此可知梅爾倒頻譜參數代表的重要性最高,其次是基8.5%、 頻軌跡,最後是音量強度曲線。 第二部分「利用HMM及音高資料的評分」主要是提供另一種語音評分的方式,以預先訓練好的聲學模型及聲調模型當成標準答案,經由語音辨認技術的使用,找出測試語音跟模型間的差異程度,並配合評分機制給與評分,主要分為「語音辨識」、「聲調辨識」以及「評分機制」包含三個主體, 「語音辨識」以隱藏式馬可夫模型當作聲學模型,以樹狀網路當作語言模型,利用Viterbi Search找出最相似的狀態組合,即可辨識出語音的內容, 「聲調辨識」利用Orthogonal Expansion及Chebyshev Approximation來參數化基頻軌跡,並由K-means來訓練聲調模型,藉由聲調模型我們就可以找出測試語音最有可能的聲調, 「評分機制」主要利用語音辨識及聲調辨識的結果,即聲音在所有可能415個音裡面的排 ~ 54 ~ 名以及聲調在四聲中的排名,以這兩個排名配合我們定義好的評分機制即可以針對測試語音在聲音和聲調兩個觀點的評分。 語音評分的運用相當廣泛,例如「利用標準語音資料的評分」由於運算量較小,未來可以運用在現在流行的週邊設備(device)中,例如手機裡的行動KTV系統及一般語言學習機的評分系統,「利用HMM及音高資料的評分」則可以運用在國語正音系統以及語料收集的篩選系統等等。 ~ 55 ~ 附錄一,Orthogonal Expansion基底推導 3iijf(),a()  , i,0,1,...,N由於基頻軌跡可以用多項式 來表示,因此我們,jNNj,0定義其內積值(Inner Product)為 Nii1ii,f(),f(),,f(),f()  , N,2, ,ababNNN,1NN,0i iii23並利用Gram-Schmidt Orthogonalization procedure即可將轉成,1,,(),(),NNN iiii ,,(),,(),,(),,(),0123NNNN ,,10 112Ni12,,(),(,)1N,2N2 3NiiN,1801122,,[],[(),,] 2N,N,N,NNN(1)(2)(3)6 5N280012,[],3N,N,N,N,N,(1)(2)(2)(3)(4) 2iiN,N,iN,N,3632(1)(2)32,,,,[()()()]22NNNNN21020 證明, iii,,,,23(x,x,x,x),(1,,(),())0123NNN,,y,x,1 00 N1N,1,. ,1,1,,1psy,0N,1N,1i,0 ~ 56 ~ i,,,1,,,,xy,1ii,,,N101y,x,y,,,,,1102,N1N2y 0 Ni1i11N(N,1)1ps.,,1,,,1,,,,,,1,122NNNNN,0i ,,,,,x,y,,x,y,,,,,2021y,x,y,y2201,,22yy01 iii122,(),1,,(),,,ii12NNN2,(),,1,,(,)2N1N2i1 ,N2i2N,1i12,(),,(,)N6NN2 ,iiN12,(),,NN6N ps. Ni1i11N(N,1)(2N,1)2N,122(),1()1,,,,,,,,,2NN,1NN,1N66Ni,0 Nii11ii122,(),,,,(),(,),NN2N,1NN2i,0 22 11N(N,1)11N(N,1)(2N,1),,,,,,32N,1N4N,12N6 N,12N,1,,4N12N ,N2,12N i1i1i11i12N,(),,,,,,,,2N2N2N2N1N2,,0,i1ii1N[()],,,2N1NN4,,0,i11N(N1)(2N1)1N(N1)N1,,,,{},,,,,,N1N6N24,2 2N111,,,,6N24 4N23N,,,12N N2,,12N ~ 57 ~ ,,,,,,,同理,我們可以推導 y3,x,y,,x,y,,x,y,,,,,,303132y,x,y,y,y33012,,,222yyy012 iii133,(),1,,(),,,ii1NNN23,(),,1,,(,)2N1N2i1, N2iiiN,1 32,(),(),,,iiN,12NNN6N,,((),,)2NN6NiiN,12(),, NN6N 2i3i6N,3N,2i(N,1)(N,2)32,(),(),(),22N2N10NN20N ,y10,,,,1,0y10 i1 ,,1y12Ni1N212,,,(),(,),,1i1yN,2N21,N2 iiN,12,,,()yNNN62,,,,2iiN,1y22,,() NNN6 3NiiN,1801122,[],[(),,]N,N,N,NNN(1)(2)(3)6 ~ 58 ~ ps. 2iiN1iiN1iiN1,,,222()(),(),,,,,,,,,NN6NNN6NNN6N N 1iiN1,22[()],,,,N1NN6N,i,0 (N,1)(N,2)(N,3),3180N 2i3i6N,3N,2i(N,1)(N,2)32,(),(),(),22yN2N10NN20N3,,,,32yi3i6N,3N,2i(N,1)(N,2)332(),(),(),22N2N10NN20N 5 2800N12,[](1)(2)(2)(3)(4)N,N,N,N,N, 2i3i6N,3N,2i(N,1)(N,2)32[()()()],,,,22N2N10NN20Nps. 22i3i6N,3N,2i(N,1)(N,2)32(),(),(), 22N2N10NN20N(N,1)(N,2)(N,2)(N,3)(N,4),52800N 備註: NN(N,1)i,,2i,0 N N(N,1)(2N,1)2i,,6,i0 22NNN,(1)3i,,4,i0 2NNN,N,N,N,(1)(21)(331)4i,,30i0, 222NNN,N,N,(1)(221)5i, ,12i0, 43NNN,N,N,N,N,(1)(21)(3631)6i,,420i, ~ 59 ~ ~ 60 ~ 參考文獻 【1】 J.D., J.G..P, J.H.L.H, Discrete-Time Processing of Speech Signals, Prentice Hall, 1993. 【2】T.W. Parsons, Voice and Speech Processing, McGraw-Hill, 1986. 【3】葉佳慧,“以音符及節拍為主的音樂檢索系統”, 清華大學碩士論文, 民國90年 【4】Lawrence Rabiner, B.H Juang, Fundamentals of speech recognition, Prentice Hall, 1993. 【5】J.-S. R. Jang, C.-T. Sun, and E. Mizutani, Neuro-Fuzzy and Soft Computing, Prentice Hall, 1996. 【6】 高名揚,“以聲音內容為主的音樂資料庫檢索系統的加速方法”, 清華大學碩士論文, 民國90年 【7】方士豪,“雜訊及通道環境下語音辨認技術之研究”, 台灣大學碩士論文, 民國90年 【8】JULIUS T. TOU, RAFAEL C. GONZALEZ, Pattern Recognition Principles, Addison-Wesley Publishing Company, 1974. 【9】呂道誠,“不特定語者、國台雙語大詞彙語音辨識之聲學模型研究”,長庚大學碩士論文,民國90年 【10】楊永泰,“隱藏式馬可夫模型應用於中文語音辨識之研究”, 中原大學碩士論 ~ 61 ~ 文, 民國89年 【11】陳柏琳,“中文語音資訊檢索—以音節為基礎之索引特徵、統計式檢索模型及進一步技術”, 台灣大學博士論文, 民國90年 【12】Steven Young, The HTK Book version 3, Microsoft Corporation, 2000. 【13】莊向凱,“國語語音資料庫之標音系統”, 清華大學碩士論文, 民國88年 【14】徐光輝,“國語語音資料庫MAT-2000上的聲調辨認研究”, 清華大學碩士論文, 民國89年 【15】王逸如,“對基週軌跡做向量量化之線性預估語音編碼”, 交通大學碩士論文, 民國76年 【16】Press, William H., Numerical Recipes in C, The Art of Scientific Computing, Cambridge University Press, 1992. 【17】許文豪,“圖形辨識概述與實作”, 清華大學碩士論文, 民國89年 【18】蔣昇倫,“經電話通道之國語連續411音節辨認”, 交通大學碩士論文, 民國86年 【19】謝宏坤,“語音說明中搜尋任意定義之關鍵詞的研究”, 台灣科技大學碩士論文, 民國89年 ~ 62 ~
/
本文档为【国立清华大学硕士论文】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索