神經(jīng)腦植入物提供近乎即時(shí)的語(yǔ)音
英國(guó)物理學(xué)家斯蒂芬·霍金 (Stephen Hawking) 可以說(shuō)是最著名的肌萎縮側(cè)索硬化癥 (ALS) 患者,他使用安裝在眼鏡中的傳感器與世界交流。該傳感器使用他臉頰上一塊肌肉的微小運(yùn)動(dòng)來(lái)選擇屏幕上的字符。一旦他以大約每分鐘一個(gè)單詞的速度輸入一個(gè)完整的句子,文本就會(huì)被 DECtalk TC01 合成器合成成語(yǔ)音,這給了他標(biāo)志性的機(jī)器人聲音。
本文引用地址:http://www.2s4d.com/article/202506/471843.htm但自霍金于 2018 年去世以來(lái),發(fā)生了很多變化。最近的腦機(jī)接口 (BCI) 設(shè)備使將神經(jīng)活動(dòng)直接轉(zhuǎn)化為文本甚至語(yǔ)音成為可能。不幸的是,這些系統(tǒng)具有明顯的延遲,通常會(huì)將用戶限制在預(yù)定義的詞匯表中,并且它們無(wú)法處理口語(yǔ)的細(xì)微差別,如音高或韻律?,F(xiàn)在,加州大學(xué)戴維斯分校 (University of California, Davis) 的一個(gè)科學(xué)家團(tuán)隊(duì)已經(jīng)制造了一種神經(jīng)假體,可以立即將大腦信號(hào)轉(zhuǎn)換為聲音——音素和單詞。這可能是我們朝著完全數(shù)字化聲帶邁出的第一步。
短信
“我們的主要目標(biāo)是創(chuàng)造一種靈活的言語(yǔ)神經(jīng)假體,使癱瘓患者能夠盡可能流利地說(shuō)話,管理自己的節(jié)奏,并通過(guò)讓他們調(diào)節(jié)語(yǔ)調(diào)來(lái)提高表現(xiàn)力,”領(lǐng)導(dǎo)這項(xiàng)研究的加州大學(xué)戴維斯分校神經(jīng)假肢研究員 Maitreyee Wairagkar 說(shuō)。開(kāi)發(fā)滿足所有這些條件的假肢是一項(xiàng)巨大的挑戰(zhàn),因?yàn)檫@意味著 Wairaggar 的團(tuán)隊(duì)必須解決基于 BCI 的通信解決方案過(guò)去面臨的幾乎所有問(wèn)題。他們遇到了很多問(wèn)題。
第一個(gè)問(wèn)題是超越文本——迄今為止開(kāi)發(fā)的大多數(shù)成功的神經(jīng)假體都將大腦信號(hào)轉(zhuǎn)化為文本——植入假體的患者想說(shuō)的話只是出現(xiàn)在屏幕上。Francis R. Willett 在斯坦福大學(xué)領(lǐng)導(dǎo)了一個(gè)團(tuán)隊(duì),以大約 25% 的錯(cuò)誤率實(shí)現(xiàn)了大腦到文本的翻譯?!爱?dāng)患有 ALS 的女性試圖說(shuō)話時(shí),他們可以解碼這些單詞。四個(gè)詞中有三個(gè)是正確的。這非常令人興奮,但對(duì)于日常交流來(lái)說(shuō)還不夠,“加州大學(xué)戴維斯分校的神經(jīng)科學(xué)家、該研究的資深作者謝爾蓋·斯塔維斯基 (Sergey Stavisky) 說(shuō)。
延誤和字典
在斯坦福大學(xué)工作一年后,即 2024 年,Stavisky 的團(tuán)隊(duì)發(fā)表了自己對(duì)大腦到文本系統(tǒng)的研究,將準(zhǔn)確率提高到 97.5%?!皫缀趺總€(gè)單詞都是正確的,但通過(guò)文本進(jìn)行交流可能會(huì)受到限制,對(duì)吧?”斯塔維斯基說(shuō)。“有時(shí)你想用你的聲音。它允許你做感嘆詞,它使其他人打斷你的可能性更小——你可以唱歌,你可以使用字典中沒(méi)有的單詞。但生成語(yǔ)音的最常見(jiàn)方法依賴于從文本中合成語(yǔ)音,這直接導(dǎo)致了 BCI 系統(tǒng)的另一個(gè)問(wèn)題:非常高的延遲。
在幾乎所有的 BCI 語(yǔ)音輔助工具中,句子在患者在腦海中完成單詞串在一起很久之后,都會(huì)在很長(zhǎng)一段時(shí)間后出現(xiàn)在屏幕上。語(yǔ)音合成部分通常發(fā)生在文本準(zhǔn)備好之后,這會(huì)導(dǎo)致更多的延遲。Brain-to-text 解決方案也受到詞匯量有限的影響。此類(lèi)最新系統(tǒng)支持大約 1,300 個(gè)單詞的詞典。當(dāng)您嘗試說(shuō)不同的語(yǔ)言、使用更復(fù)雜的詞匯,甚至說(shuō)出附近咖啡館的不尋常名稱時(shí),系統(tǒng)都失敗了。
因此,Wairagkar 設(shè)計(jì)了她的假肢,將大腦信號(hào)轉(zhuǎn)化為聲音,而不是文字,并且是實(shí)時(shí)完成的。
提取聲音
同意參加 Wairagkar 研究的患者代號(hào)為 T15,是一名 46 歲的 ALS 患者?!八麌?yán)重癱瘓,當(dāng)他試圖說(shuō)話時(shí),他很難理解。我認(rèn)識(shí)他好幾年了,當(dāng)他說(shuō)話時(shí),我可能能聽(tīng)懂他所說(shuō)的 5%,“神經(jīng)外科醫(yī)生、該研究的合著者 David M. Brandman 說(shuō)。在與加州大學(xué)戴維斯分校團(tuán)隊(duì)合作之前,T15 使用陀螺儀頭鼠標(biāo)來(lái)控制計(jì)算機(jī)屏幕上的光標(biāo)進(jìn)行通信。
為了使用 Stavisky 的大腦到文本系統(tǒng)的早期版本,患者將 256 個(gè)微電極植入他的腹側(cè)中央前回,這是大腦中負(fù)責(zé)控制聲帶肌肉的區(qū)域。
對(duì)于新的大腦轉(zhuǎn)語(yǔ)音系統(tǒng),Wairagkar 和她的同事們依賴于相同的 256 個(gè)電極?!拔覀冇涗浟藖?lái)自單個(gè)神經(jīng)元的神經(jīng)活動(dòng),這是我們可以從大腦獲得的最高分辨率信息,”Wairagkar 說(shuō)。然后,電極記錄的信號(hào)被發(fā)送到一種稱為神經(jīng)解碼器的 AI 算法,該算法破譯這些信號(hào)并提取語(yǔ)音特征,例如音高或發(fā)聲。下一步,這些功能被輸入到聲碼器中,聲碼器是一種語(yǔ)音合成算法,旨在聽(tīng)起來(lái)像 T15 在仍然能夠正常說(shuō)話時(shí)的聲音。整個(gè)系統(tǒng)的工作延遲低至 10 毫秒左右 — 將大腦信號(hào)轉(zhuǎn)換為聲音實(shí)際上是瞬時(shí)的。
由于 Wairagkar 的神經(jīng)假體將大腦信號(hào)轉(zhuǎn)換為聲音,因此它沒(méi)有提供有限的支持詞選擇。患者可以說(shuō)任何他想說(shuō)的話,包括字典中沒(méi)有的偽詞和“um”、“hmm”或“uh”等感嘆詞。因?yàn)橄到y(tǒng)對(duì)音高或韻律等特征很敏感,所以他還可以發(fā)聲問(wèn)題,說(shuō)出一個(gè)音調(diào)稍高的句子中的最后一個(gè)單詞,甚至可以唱出短促的旋律。
但 Wairagkar 的假肢有其局限性。
清晰度改進(jìn)
為了測(cè)試假肢的性能,Wairagkar 的團(tuán)隊(duì)首先要求人類(lèi)聽(tīng)眾將 T15 患者的一些合成語(yǔ)音錄音與一組六個(gè)相似長(zhǎng)度的候選句子中的一份轉(zhuǎn)錄相匹配。在這里,結(jié)果非常完美,系統(tǒng)實(shí)現(xiàn)了 100% 的清晰度。
當(dāng)團(tuán)隊(duì)嘗試了一些更困難的事情時(shí),問(wèn)題就開(kāi)始了:一個(gè)開(kāi)放式轉(zhuǎn)錄測(cè)試,聽(tīng)眾必須在沒(méi)有任何候選轉(zhuǎn)錄的情況下工作。在第二次測(cè)試中,單詞錯(cuò)誤率為 43.75%,這意味著參與者正確識(shí)別了一半以上的記錄單詞。與 T15 的獨(dú)立語(yǔ)音的清晰度相比,這無(wú)疑是一個(gè)進(jìn)步,在 T15 的同一測(cè)試中,同一組聽(tīng)眾的單詞錯(cuò)誤為 96.43%。但是,這個(gè)假肢雖然很有前途,但還不夠可靠,無(wú)法用于日常通信。
“我們還沒(méi)有到可以用于開(kāi)放式對(duì)話的地步。我認(rèn)為這是一個(gè)概念驗(yàn)證,“Stavisky 說(shuō)。他建議改進(jìn)未來(lái)設(shè)計(jì)的一種方法是使用更多的電極?!艾F(xiàn)在有很多初創(chuàng)公司在構(gòu)建 BCI,這些 BCI 將擁有一千多個(gè)電極。如果你想想我們只用 250 個(gè)電極所取得的成就,而用 1000 或 2000 個(gè)電極就能完成的工作,我認(rèn)為它會(huì)很有效,“他爭(zhēng)辯道。實(shí)現(xiàn)這一目標(biāo)的工作已經(jīng)在進(jìn)行中。
Paradromics 是一家位于德克薩斯州奧斯汀的專(zhuān)注于 BCI 的初創(chuàng)公司,希望繼續(xù)進(jìn)行語(yǔ)音神經(jīng)假體的臨床試驗(yàn),并且已經(jīng)在尋求 FDA 的批準(zhǔn)?!八麄冇幸粋€(gè) 1,600 個(gè)電極的系統(tǒng),他們公開(kāi)表示他們將進(jìn)行演講,”Stavisky 說(shuō)?!拔覀兊暮现?David Brandman 將成為這些試驗(yàn)的首席研究員,我們將在加州大學(xué)戴維斯分校進(jìn)行這項(xiàng)工作?!?/p>
評(píng)論