克服多語言語音技術的障礙:五大挑戰(zhàn)和創(chuàng)新解決方案
推薦:使用NSDT場景編輯器助你快速搭建可二次編輯器的3D應用場景介紹
在用西班牙語(您的首選語言)向語音助手詢問某些內(nèi)容后,您有多少次不得不暫停,然后用語音助手理解的語言(可能是英語)重述您的問題,因為語音助手無法理解您的西班牙語請求?或者,當你要求你的語音助手播放他們的音樂時,你有多少次不得不故意念錯你最喜歡的藝術家A. R. Rahman的名字,因為你知道如果你說出他們的名字是正確的,語音助手根本聽不懂,但如果你說A.R.拉面,語音助手會明白嗎?此外,當語音助手用他們舒緩、無所不知的聲音,屠宰你最喜歡的音樂劇《悲慘世界》的名字并明確地將其發(fā)音為“Les Miz-er-ables”時,你有多少次畏縮?
盡管語音助手在大約十年前已成為主流,但它們?nèi)匀槐3趾唵位?,特別是在理解多語言環(huán)境中的用戶請求方面。在一個多語言家庭正在崛起,現(xiàn)有和潛在用戶群變得越來越全球化和多樣化的世界中,語音助手在理解用戶請求時變得無縫至關重要,無論他們的語言、方言、口音、語氣、調(diào)制和其他語音特征如何。然而,語音助手在能夠以人類彼此的方式與用戶順利交談方面繼續(xù)嚴重滯后。在本文中,我們將深入探討使語音助手多語言運行的最大挑戰(zhàn)是什么,以及緩解這些挑戰(zhàn)的一些策略可能是什么。在本文中,我們將使用假設的語音助手 Nova,用于說明目的。
語音助手的工作原理在深入探討使語音助手用戶體驗多語言的挑戰(zhàn)和機遇之前,讓我們大致了解一下語音助手的工作原理。使用 Nova 作為假設的語音助手,我們看看請求音樂曲目的端到端流程是什么樣的(參考)。
1. 假設語音助手Nova的端到端概述
如圖所示。1.當用戶要求Nova播放流行樂隊酷玩樂隊的原聲音樂時,用戶的這個聲音信號首先被轉換為一串文本令牌,作為人-語音助手交互的第一步。此階段稱為自動語音識別 (ASR) 或語音轉文本 (STT)。一旦令牌字符串可用,它就會傳遞到自然語言理解步驟,語音助手將嘗試理解用戶意圖的語義和句法含義。在這種情況下,語音助手的NLU解釋用戶正在尋找酷玩樂隊的歌曲(即解釋酷玩樂隊是一個樂隊),這些歌曲本質上是原聲的(即在該樂隊的唱片中查找歌曲的元數(shù)據(jù),并且只選擇版本=原聲的歌曲)。然后,此用戶意圖理解用于查詢后端以查找用戶要查找的內(nèi)容。最后,用戶正在尋找的實際內(nèi)容以及向用戶呈現(xiàn)此輸出所需的任何其他附加信息將轉到下一步。在此步驟中,響應和任何其他可用信息用于修飾用戶的體驗,并令人滿意地響應用戶查詢。在這種情況下,它將是文本到語音轉換 (TTS) 輸出(“這是酷玩樂隊的一些原聲音樂”),然后播放為此用戶查詢選擇的實際歌曲。
構建多語言語音助手的挑戰(zhàn)多語言語音助手 (VA) 意味著能夠理解和響應多種語言的 VA,無論它們是由同一個人或多人說的,還是由同一個人用與另一種語言混合的同一個句子說的(例如“Nova,arrêt!玩別的東西“)。以下是語音助手在多模式環(huán)境中無縫操作時面臨的主要挑戰(zhàn)。
語言資源的數(shù)量和數(shù)量不足為了使語音助手能夠很好地解析和理解查詢,需要對該語言的大量訓練數(shù)據(jù)進行訓練。這些數(shù)據(jù)包括來自人類的語音數(shù)據(jù)、地面真相注釋、大量文本語料庫、用于改進 TTS 發(fā)音的資源(例如發(fā)音詞典)和語言模型。雖然這些資源很容易用于英語、西班牙語和德語等流行語言,但對于斯瓦希里語、普什圖語或捷克語等語言,它們的可用性有限甚至不存在。即使有足夠多的人使用這些語言,也沒有結構化的資源可用于這些語言。為多種語言創(chuàng)建這些資源可能很昂貴、復雜且需要大量人力,從而為進展帶來阻力。
語言變化語言有不同的方言、口音、變體和區(qū)域適應。處理這些變化對于語音助手來說具有挑戰(zhàn)性。除非語音助手適應這些語言上的細微差別,否則很難正確理解用戶請求或能夠以相同的語言語氣做出響應,以提供自然的聲音和更像人類的體驗。例如,僅英國就有40多種英語口音。另一個例子是墨西哥使用的西班牙語與西班牙使用的西班牙語不同。
語言識別和適應多語言用戶在與其他人的交互過程中切換語言是很常見的,他們可能期望與語音助手進行相同的自然交互。例如,“Hinglish”是一個常用術語,用于描述在說話時使用印地語和英語單詞的人的語言。能夠識別用戶與語音助手交互的語言并相應地調(diào)整響應是一項艱巨的挑戰(zhàn),這是當今主流語音助手無法做到的艱巨挑戰(zhàn)。
語言翻譯將語音助手擴展到多種語言的一種方法是將 ASR 輸出從盧森堡語等非主流語言翻譯成 NLU 層可以更準確地解釋的語言,例如英語。常用的翻譯技術包括使用一種或多種技術,如神經(jīng)機器翻譯 (NMT)、統(tǒng)計機器翻譯 (SMT)、基于規(guī)則的機器翻譯 (RBMT) 等。但是,這些算法可能無法很好地針對不同的語言集進行擴展,并且可能還需要大量的訓練數(shù)據(jù)。此外,語言特定的細微差別經(jīng)常丟失,翻譯版本往往顯得尷尬和不自然。在能夠擴展多語言語音助手方面,翻譯質量仍然是一個持續(xù)的挑戰(zhàn)。翻譯步驟中的另一個挑戰(zhàn)是它引入的延遲,降低了人與語音助手交互的體驗。
真正的語言理解語言通常具有獨特的語法結構。例如,英語有單數(shù)和復數(shù)的概念,梵語有3(單數(shù),對偶,復數(shù))。也可能有不同的習語不能很好地翻譯成其他語言。最后,可能還有文化細微差別和文化參考,除非翻譯技術具有高質量的語義理解,否則翻譯可能很差。開發(fā)特定于語言的 NLU 模型是昂貴的。
克服構建多語言語音助手的挑戰(zhàn)上面提到的挑戰(zhàn)是難以解決的問題。但是,有一些方法可以立即部分(如果不是完全)緩解這些挑戰(zhàn)。以下是一些可以解決上述一個或多個挑戰(zhàn)的技術。
利用深度學習檢測語言解釋句子含義的第一步是知道句子屬于哪種語言。這就是深度學習的用武之地。深度學習使用人工神經(jīng)網(wǎng)絡和大量數(shù)據(jù)來創(chuàng)建看起來像人類的輸出。基于轉換器的架構(例如BERT)在語言檢測方面已經(jīng)證明是成功的,即使在資源匱乏的語言中也是如此?;谵D換器的語言檢測模型的替代方法是遞歸神經(jīng)網(wǎng)絡 (RNN)。這些模型應用的一個例子是,如果一個平時用英語說話的用戶有一天突然用西班牙語與語音助手交談,語音助手可以正確檢測和識別西班牙語。
使用上下文機器翻譯來“理解”請求一旦檢測到語言,解釋句子的下一步是獲取 ASR 階段的輸出,即標記字符串,并將該字符串(不僅從字面上而且在語義上)轉換為可以處理以生成響應的語言。而不是使用翻譯 API,這些 API 可能并不總是知道語音界面的上下文和特性,并且由于高延遲而在響應中引入次優(yōu)延遲,從而降低用戶體驗。但是,如果將上下文感知機器翻譯模型集成到語音助手中,則由于特定于域或會話上下文,翻譯可以具有更高的質量和準確性。例如,如果語音助手主要用于娛樂,它可以利用上下文機器翻譯來正確理解和回答有關音樂流派和子流派、樂器和音符、某些曲目的文化相關性等問題。
利用多語言預訓練模型由于每種語言都有獨特的結構和語法、文化參考、短語、習語和表達方式以及其他細微差別,因此處理不同的語言具有挑戰(zhàn)性。鑒于特定于語言的模型很昂貴,預先訓練的多語言模型可以幫助捕獲特定于語言的細微差別。像BERT和XLM-R這樣的模型是預先訓練模型的很好的例子,可以捕獲語言特定的細微差別。最后,這些模型可以微調(diào)到一個領域,以進一步提高其準確性。例如,對于在音樂領域訓練的模型,可能不僅能夠理解查詢,還可以通過語音助手返回豐富的響應。如果這個語音助手被問到一首歌歌詞背后的含義是什么,語音助手將能夠以比簡單解釋單詞更豐富的方式回答問題。
使用代碼切換模型實現(xiàn)代碼切換模型以便能夠處理混合使用不同語言的語言輸入,可以在用戶與語音助手的交互中使用多種語言的情況下提供幫助。例如,如果語音助手是專門為加拿大用戶經(jīng)常混淆法語和英語的地區(qū)設計的,則可以使用代碼切換模型來理解指向語音助手的句子,這些句子是兩種語言的混合,語音助手將能夠處理它。
利用遷移學習和零鏡頭學習來開發(fā)低資源語言遷移學習是 ML 中的一種技術,其中模型在一項任務上訓練,但用作第二個任務的模型的起點。它利用從第一個任務中學習來提高第二個任務的性能,從而在一定程度上克服了冷啟動問題。零鏡頭學習是指使用預先訓練的模型來處理以前從未見過的數(shù)據(jù)。遷移學習和零鏡頭學習都可以用于將知識從高資源語言轉移到低資源語言。例如,如果語音助手已經(jīng)接受了世界上最常用的 10 種語言的培訓,則可以利用它來理解斯瓦希里語等低資源語言的查詢。
結論總之,在語音助手上構建和實現(xiàn)多語言體驗具有挑戰(zhàn)性,但也有一些方法可以緩解其中一些挑戰(zhàn)。通過解決上述挑戰(zhàn),語音助手將能夠為用戶提供無縫體驗,無論其語言如何。
原文鏈接:克服多語言語音技術的障礙:五大挑戰(zhàn)和創(chuàng)新解決方案 (mvrlink.com)
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。