基于DSP的高速實時語音識別系統(tǒng)的設計
——
1 語音識別的原理
語音識別的基本原理框圖如圖1所示。語音信號中含有豐富的信息,從中提取對語音識別有用的信息的過程,就是特征提取,特征提取方法是整個語音識別系統(tǒng)的基礎。語音識別的過程可以被看作足模式匹配的過程,模式匹配是指根據一定的準則,使未知模式與模型庫中的某一模型獲得最佳匹配。

1.1 MFCC
語音識別中對特征參數的要求是:
(1) 能夠有效地代表語音特征;
(2) 各階參數之間有良好的獨立性;
(3) 特征參數要計算方便,保證識別的實時實現。
系統(tǒng)使用目前最為常用的MFCC(Mel FrequencyCepstral Coefficient,美爾頻率倒譜系數)參數。
求取MFCC的主要步驟是:
(1) 給每一幀語音加窗做FFT,取出幅度;
(2) 將幅度和濾波器組中每一個三角濾波器進行Binning運算;
(3) 求log,換算成對數率;
(4) 從對數率的濾波器組幅度,使用DCT變換求出MFCC系數。

本文中采用12階的MFCC,同時加過零率和delta能量共14維的語音參數。
1.2 DTW
語音識別中的模式匹配和模型訓練技術主要有DTW(Dynamic Time Warping,動態(tài)時間彎折)、HMM(HideMarkov
Model,隱馬爾科夫模型)和ANN(Artificial Neu-ral Network,人工神經元網絡)。
DTW是一種簡單有效的方法。該算法基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現較早、較為經典的一種算法。DTW算法的原理是計算兩個長度不同的語音之間的相似程度,即失真距離。
設測試語音和參考語音用T和R表示,他們分別含有N幀和M幀的語音參數。本文中每幀語音的特征參數為14維,因此T,R分別為N linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解(linux不再難懂)
評論