車(chē)上設(shè)備人機(jī)語(yǔ)音接口
語(yǔ)音接口中最重要也是最難處理的是語(yǔ)音命令的識(shí)別部分。在車(chē)輛環(huán)境下,識(shí)別方法必須對(duì)車(chē)輛運(yùn)行中可能的噪聲和車(chē)內(nèi)的回音具有魯棒性,并且要有足夠高的識(shí)別準(zhǔn)確率和具有響應(yīng)的實(shí)時(shí)性。為了實(shí)現(xiàn)這些目標(biāo),這個(gè)系統(tǒng)中,在語(yǔ)音信號(hào)輸入通道中引入了噪聲抵消和回音抵消技術(shù);在語(yǔ)音識(shí)別算法中采用多步分層策略,使每一步的有效待識(shí)別詞匯集盡量小,以提高每一步識(shí)別的準(zhǔn)確度和提高識(shí)別速度。
在語(yǔ)音識(shí)別中另外一個(gè)問(wèn)題是對(duì)說(shuō)話(huà)人口音語(yǔ)速等方面的適應(yīng)。由于汽車(chē)具有特定人使用的特點(diǎn),也就是一般有一個(gè)特定的人使用這個(gè)汽車(chē),所以這個(gè)語(yǔ)音識(shí)別過(guò)程采用特定人語(yǔ)音識(shí)別技術(shù),而且RSC364支持特定人語(yǔ)音識(shí)別,并具有很高的識(shí)別率。它可由使用者直接訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),形成詞匯的模板可以大大提高系統(tǒng)對(duì)這個(gè)使用者的語(yǔ)音識(shí)別準(zhǔn)確度。
在汽車(chē)一定的狀態(tài)下,和當(dāng)前輸入的命令狀態(tài)下,下一步輸入的可能的有效命令構(gòu)成這個(gè)命令的一個(gè)合法后續(xù)命令集,依次類(lèi)推,語(yǔ)音命令之間構(gòu)成一個(gè)樹(shù)型結(jié)構(gòu),稱(chēng)為命令樹(shù)。在正確識(shí)別一個(gè)命令后,其后續(xù)輸入的語(yǔ)音識(shí)別只在已識(shí)別命令的孩子節(jié)點(diǎn)集中進(jìn)行。根據(jù)歸納的情況,一個(gè)命令的有效后續(xù)命令不超過(guò)20 個(gè)。在這樣的詞匯集中進(jìn)行識(shí)別,可以達(dá)到很高的識(shí)別率,而且識(shí)別速度很快。
命令樹(shù)有三層。第一層的可能命令集為:
Top={“復(fù)位”,“退出”,“狀態(tài)”,“故障”,“關(guān)閉”,“電話(huà)”,“CD”,“車(chē)窗”,“空調(diào)”,“導(dǎo)航”,“啟動(dòng)提示”,“關(guān)閉提示”,“信箱” }
其中有后續(xù)(下層)命令的命令有 “電話(huà)”,“CD”,“車(chē)窗”,“空調(diào)”,“導(dǎo)航”, “信箱”表示要打電話(huà)的“電話(huà)”命令的后續(xù)命令有:
Tel-1={“撥號(hào)”,“掛機(jī)”,“重?fù)堋眪
其中,“撥號(hào)”的后續(xù)命令集為:
Tel-2={“0”, “1”, “2”, “3”, “4”, “5”, “6”, “7”, “8”, “9”, “通話(huà)”}。
表示播放C1D 的命令 “CD” 的后續(xù)命令集為:
CD-1={“播放”,“關(guān)機(jī)”,“增大”,“降低”}
車(chē)窗控制命令 “車(chē)窗”的后續(xù)命令集為:
Win-1={“左前”,“左后”,“右前”,“右后”}
表示選擇要操作的車(chē)窗。其中每一個(gè)命令都對(duì)應(yīng)有以下后續(xù)命令集:
Win-2={“升”,“降”,“?!眪
表示要進(jìn)行空調(diào)操作的“空調(diào)”命令有以下后續(xù)操作:
AC-1={“啟動(dòng)”,“關(guān)閉”,“提高”,“降低”}
在每一種命令的操作過(guò)程中都可以通過(guò)“復(fù)位”命令終止這個(gè)過(guò)程,而回到初始化時(shí)的狀態(tài)。
每一個(gè)命令集在RSC364 中都用一個(gè)單獨(dú)的詞匯模板,以便進(jìn)行訓(xùn)練。
7 結(jié)束語(yǔ)
本文介紹的系統(tǒng)可以作為一個(gè)統(tǒng)一的車(chē)上人機(jī)語(yǔ)音接口。與其它方式比較具有以下特點(diǎn):
(1) 成本和價(jià)格完全處于車(chē)上應(yīng)用能夠接受的范圍;單片機(jī)(嵌入式系統(tǒng))能夠滿(mǎn)足其對(duì)計(jì)算能力和存儲(chǔ)量的要求。
(2) 采用噪聲和回聲抵消等技術(shù),使其完全能夠滿(mǎn)足車(chē)上環(huán)境的應(yīng)用要求,可以達(dá)到用戶(hù)接受的準(zhǔn)確率。
(3) 通過(guò)網(wǎng)絡(luò)與被訪(fǎng)問(wèn)設(shè)備連接,結(jié)構(gòu)靈活、連接線(xiàn)路簡(jiǎn)單、適應(yīng)性強(qiáng)。
基于語(yǔ)音的車(chē)上設(shè)備人機(jī)界面被認(rèn)為是最自然、最安全、也最有發(fā)展?jié)摿Φ娜藱C(jī)交互方式。本文介紹的工作,目前還處于研究開(kāi)發(fā)初級(jí)階段,要應(yīng)用于實(shí)車(chē)還有很多工作;而且,涉及到車(chē)上其它設(shè)備的連接問(wèn)題。但是,這里給出的技術(shù)方法已經(jīng)勾畫(huà)出了一個(gè)完整的體系結(jié)構(gòu),進(jìn)一步的工作可以在其基礎(chǔ)上細(xì)化完成。汽車(chē)電子裝置的網(wǎng)絡(luò)化連接已經(jīng)是一個(gè)必然的趨勢(shì),在這些裝置具備網(wǎng)絡(luò)連接接口時(shí),本系統(tǒng)的連入就是一個(gè)非常自然和簡(jiǎn)單的事情了。雖然從目前的情況看,語(yǔ)音接口方式還不能推廣應(yīng)用,但它是一項(xiàng)必然要采用的技術(shù)方法。超前的研究開(kāi)發(fā)工作對(duì)提高我國(guó)汽車(chē)電子技術(shù)水平具有實(shí)際意義。
參考文獻(xiàn)
1 Charles J. Murray. “Automakers struggle with speech recognition technology,” EE Times Dec 1, 2000
2 Deborah F.Allinger. Charles Strauss and Dennis Kwon. “ Applications of speech technology to unmanned vehicles,” 20th Digital Avionics Systems Conference, Volume: 1, 2001. Page(s): 5B4/1 -5B4/9
3 T. Kuhn, A.Jameel, M.Stumpfle and A. Haddadi, “Hybrid in-car speech recognition for mobile multimedia application.” IEEE 49th Vehicular Technology Conference, Volume: 3 , 1999. Page(s): 2009~2013
4 Lawrence Rabiner, B-H Juang. “Fundamentals of Speech Recognition”. 北京:清華大學(xué)出版社,1999(end)
評(píng)論