博客專欄

EEPW首頁 > 博客 > “聽音辨臉”的超能力,你想擁有嗎?

“聽音辨臉”的超能力,你想擁有嗎?

發(fā)布人:計(jì)算機(jī)視覺工坊 時(shí)間:2021-01-08 來源:工程師 發(fā)布文章

論文:Speech2Face: Learning the Face Behind a Voice (CVPR 2019,MIT)

我們可以從一個(gè)人的說話方式推斷出多少?在本文中,研究人員研究了從講話人的簡(jiǎn)短錄音中重建該人的面部圖像的任務(wù)。他們?cè)O(shè)計(jì)并訓(xùn)練了一個(gè)深層的神經(jīng)網(wǎng)絡(luò),使用來自Internet / Youtube的數(shù)百萬人的自然視頻來執(zhí)行此任務(wù)。在訓(xùn)練過程中,模型學(xué)習(xí)視聽和面部表情的相關(guān)性,從而使其產(chǎn)生可捕捉說話者各種身體屬性(例如年齡,性別和種族)的圖像。這是通過利用互聯(lián)網(wǎng)視頻中人臉和語音的自然共現(xiàn)以自我監(jiān)督的方式完成的,而無需明確地對(duì)屬性建模。直接從音頻獲得的重構(gòu)揭示了臉部和聲音之間的相關(guān)性。研究人員評(píng)估并以數(shù)字方式量化從音頻中重建Speech2Face的方式如何以及以何種方式類似于揚(yáng)聲器的真實(shí)面部圖像。

Speech2Face模型:

自然面部圖像中的面部表情,頭部姿勢(shì),遮擋和照明條件的巨大差異,使Speech2Face模型的設(shè)計(jì)和訓(xùn)練變得不那么重要。例如,從輸入語音退回到圖像像素的直接方法不起作用;這樣的模型必須學(xué)會(huì)排除數(shù)據(jù)中許多不相關(guān)的變化,并隱式提取人臉的有意義的內(nèi)部表示,這本身就是一項(xiàng)艱巨的任務(wù)。

為了避開這些挑戰(zhàn),研究人員訓(xùn)練模型以回歸到人臉的低維中間表示。利用VGG-Face模型(在大型人臉數(shù)據(jù)集上預(yù)先訓(xùn)練的人臉識(shí)別模型),并從網(wǎng)絡(luò)的倒數(shù)第二層提取人臉特征。這些面部特征顯示為包含足夠的信息以重建相應(yīng)的面部圖像,并且具有一定的魯棒性,模型整體框架如下。

7.png

給這個(gè)網(wǎng)絡(luò)輸入一個(gè)復(fù)雜的聲譜圖,它將會(huì)輸出4096-D面部特征,然后使用預(yù)訓(xùn)練的面部****將其還原成面部的標(biāo)準(zhǔn)圖像。訓(xùn)練模塊在圖中用橙色部分標(biāo)記。在訓(xùn)練過程中,Speech2Face模型不會(huì)直接用人臉圖像與原始圖像進(jìn)行對(duì)比,而是與原始圖像的4096-D面部特征對(duì)比,省略了恢復(fù)面部圖像的步驟。在訓(xùn)練完成后,模型在推理過程中才會(huì)使用面部****恢復(fù)人臉圖像。訓(xùn)練過程使用的是AVSpeech數(shù)據(jù)集,它包含幾百萬個(gè)YouTube視頻,超過10萬個(gè)人物的語音-面部數(shù)據(jù)。在具體細(xì)節(jié)上,研究使用的中每個(gè)視頻片段開頭最多6秒鐘的音頻,并從中裁剪出人臉面部趨于,調(diào)整到224×224像素。

Speech2Face管道包括兩個(gè)主要組件:1)語音編碼器,語音編碼器模塊是一個(gè)CNN,它以語音的復(fù)雜聲譜圖作為輸入,并預(yù)測(cè)將與相關(guān)聯(lián)的臉部相對(duì)應(yīng)的低維臉部特征;2)面部****,面部****的輸入為低維面部特征,并以標(biāo)準(zhǔn)形式(正面和中性表情)產(chǎn)生面部圖像。在訓(xùn)練過程中,人臉****是固定的,只訓(xùn)練預(yù)測(cè)人臉特征的語音編碼器。語音編碼器是作者自己設(shè)計(jì)和訓(xùn)練的模型,而面部****使用的是前人提出的模型。將實(shí)驗(yàn)結(jié)果更進(jìn)一步,Speech2Face還能用于人臉檢索。

研究結(jié)果:

Speech2Face能較好地識(shí)別出性別,對(duì)白種人和亞洲人也能較好地分辨出來,另外對(duì)30-40歲和70歲的年齡段聲音命中率稍微高一些。Speech2Face似乎傾向?qū)?0歲以下的說話者年齡猜大,將40-70歲的說話者年齡猜小。除了比較基礎(chǔ)的性別、年齡和種族,該模型甚至能猜中一些面部特征,比如說鼻子的結(jié)構(gòu)、嘴唇的厚度和形狀、咬合情況,以及大概的面部骨架?;旧陷斎氲恼Z音時(shí)間越長(zhǎng),預(yù)測(cè)的準(zhǔn)確度會(huì)越高。但是該項(xiàng)研究的目的不是為了準(zhǔn)確地還原說話者的模樣,主要是為了研究語音跟相貌之間的相關(guān)性。在人口屬性評(píng)估方面研究人員使用了Face++,他們通過在原始圖像和Speech2Face重建圖像上運(yùn)行Face++分類器,評(píng)估并比較了年齡,性別和種族。此外,研究人員也從顱面屬性(獲取面部的比率和距離),特征相似度(直接測(cè)量預(yù)測(cè)特征與從說話者原始面部圖像獲得的真實(shí)特征之間的余弦距離)等方面進(jìn)行比較。

6.png

(a)人口屬性評(píng)估

5.png

(b)顱面屬性

4.png

(c)特征相似度

研究應(yīng)用:

如下圖所示,研究人員從語音中重建的面部圖像可用于從語音中生成說話者的個(gè)性化卡通形象。研究人員使用Gboard(Android手機(jī)上可用的鍵盤應(yīng)用程序),它還能夠分析自拍圖像以產(chǎn)生卡通版的臉。可以看出,Speech2Face的重構(gòu)能夠很好地捕獲面部特征,以使應(yīng)用程序正常工作。

3.png

研究不足:

若根據(jù)語言來預(yù)測(cè)種族,那么一個(gè)人說不同的語言會(huì)導(dǎo)致不同的預(yù)測(cè)結(jié)果。研究人員讓一個(gè)亞洲男性分別說英語和漢語,結(jié)果分別得到了2張不同的面孔。但是,模型有時(shí)候也能正確預(yù)測(cè)結(jié)果,比如讓一個(gè)亞洲小女孩說英文,雖然恢復(fù)出的圖像和本人有差距,但仍可以看出黃種人的面部特征。通常,觀察到混合的行為,需要更徹底的檢查以確定模型在多大程度上依賴語言。

2.png

除此以外,在其他的一些情況上,模型也會(huì)出錯(cuò),比如:變聲期之前的兒童,會(huì)導(dǎo)致模型誤判性別發(fā)生錯(cuò)誤;口音與種族特征不匹配;將老人識(shí)別為年輕人,或者是年輕人識(shí)別為老人。研究人員指出,Speech2Face 的局限性,部分原因來自數(shù)據(jù)集里的說話者本身種族多樣性不夠豐富,這也導(dǎo)致了它辨認(rèn)黑種人聲音的能力比較弱。

1.png

麻省理工學(xué)院的研究人員在該項(xiàng)目的GitHub頁面提出警告,承認(rèn)該技術(shù)引發(fā)了關(guān)于隱私和歧視的問題。雖然這是純粹的學(xué)術(shù)調(diào)查,但研究人員認(rèn)為由于面部信息的潛在敏感性,在文章中明確討論一套道德考慮因素很重要,對(duì)此進(jìn)行任何進(jìn)一步調(diào)查或?qū)嶋H使用都將會(huì)仔細(xì)測(cè)試,以確保訓(xùn)練數(shù)據(jù)能夠代表預(yù)期的用戶人群。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉