神經(jīng)網(wǎng)絡(luò)其實(shí)和人一樣懶惰,喜歡走捷徑......
作者 | J?rn-Henrik Jacobsen, Robert Geirhos, Claudio Michaelis,深度學(xué)習(xí)研究專家
譯者 | Arvin,責(zé)編 | 夕顏
以下為譯文:
人工智能會(huì)很快取代放射科醫(yī)生嗎?最近,研究人員訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò)對(duì)乳腺癌進(jìn)行分類,其準(zhǔn)確度達(dá)到了85%。當(dāng)與其他三種神經(jīng)網(wǎng)絡(luò)模型結(jié)合使用時(shí),最終的集成方法達(dá)到了出色的99%的分類準(zhǔn)確度,可以與經(jīng)過多年訓(xùn)練的放射專家相媲美。
上述關(guān)于乳腺癌的分類結(jié)果是正確的,但有一點(diǎn)小問題:研究人員沒有使用最先進(jìn)的人工深度神經(jīng)網(wǎng)絡(luò),而是訓(xùn)練“自然”神經(jīng)網(wǎng)絡(luò)——更準(zhǔn)確地說,是用四只鴿子來診斷乳腺癌。
2018年,加利福尼亞大學(xué)的研究員發(fā)現(xiàn)鴿子對(duì)乳腺組織的顯微圖像很敏感,還能夠準(zhǔn)確通過乳腺X光片鑒別良性、惡性乳腺癌腫瘤,經(jīng)過15天的訓(xùn)練之后,鴿子們對(duì)乳腺癌病理切片和醫(yī)學(xué)影像的判斷正確率就提升到了85%左右。
然而,鴿子從未被視為醫(yī)學(xué)成像的未來,大公司也沒有砸錢建大規(guī)模養(yǎng)鴿場(chǎng):與我們對(duì)深度神經(jīng)網(wǎng)絡(luò)(DNNs)的期望相比,我們對(duì)鴿子并沒抱太大期望。
在許多方面,DNN確實(shí)沒有辜負(fù)宣傳和人們的希望:它們?cè)谡麄€(gè)社會(huì),行業(yè)和科學(xué)領(lǐng)域的成功都是不可否認(rèn)的,而且新的突破仍然會(huì)在幾個(gè)月(甚至幾周)的時(shí)間就能實(shí)現(xiàn)。但是,看似脫節(jié)的失效案例仍在不斷發(fā)生著:DNN在識(shí)別物體方面達(dá)到了超人的性能,但是即使很小的看不見的變化或不同的背景和環(huán)境也可能使預(yù)測(cè)完全偏離。DNN可以為圖像生成合理的標(biāo)題,但是,令人擔(dān)憂的是,DNN可以在不真正查看該圖像的情況下這樣做。DNN可以準(zhǔn)確識(shí)別人臉,但對(duì)少數(shù)群體的人臉識(shí)別錯(cuò)誤率卻非常高。DNN可以根據(jù)簡(jiǎn)歷預(yù)測(cè)聘用決策,但是算法在選擇的過程中卻會(huì)出現(xiàn)偏見。
如何調(diào)和DNN超出人類的表現(xiàn),同時(shí)卻可能會(huì)犯下荒謬錯(cuò)誤之間的偏差呢?我們認(rèn)為,許多失敗案例不是個(gè)例,而是和DNN會(huì)無意識(shí)地遵循“捷徑”策略有關(guān)。雖然表面上是成功的,但稍微發(fā)生些許偏差,這些策略通常會(huì)以失敗告終。
“捷徑”是指在標(biāo)準(zhǔn)基準(zhǔn)上表現(xiàn)良好,但在更具挑戰(zhàn)性的測(cè)試條件上表現(xiàn)差的決策規(guī)則?!敖輳健背霈F(xiàn)的情況多種多樣,在數(shù)據(jù)集和應(yīng)用程序領(lǐng)域中無處不在。比如:
從原則上講,捷徑學(xué)習(xí)并不是一種新現(xiàn)象,它有很多不同的術(shù)語名稱,例如“協(xié)變移位學(xué)習(xí) ”、“反因果學(xué)習(xí)”、“數(shù)據(jù)集偏差”、“坦克傳奇 ”和“聰明漢斯效果”等。 我們?cè)谶@里討論捷徑學(xué)習(xí)如何結(jié)合深度學(xué)習(xí)的問題,以及我們可以做些什么來更好地理解和使用捷徑學(xué)習(xí)。
什么是捷徑?
在機(jī)器學(xué)習(xí)中,模型能夠?qū)W習(xí)的解決方案受數(shù)據(jù)、模型體系結(jié)構(gòu)、優(yōu)化器和目標(biāo)函數(shù)的約束。然而,這些約束往往會(huì)允許不止一個(gè)解決方案,通常有很多不同的方法來解決同一個(gè)問題。捷徑是在典型測(cè)試集上表現(xiàn)良好,但在不同情況下失敗的解決方案,暴露出與我們的意圖不符的現(xiàn)象。
舉一個(gè)例子,當(dāng)在簡(jiǎn)單的星月數(shù)據(jù)集上訓(xùn)練時(shí)(頂行),標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)(三層,完全連接)可以輕松地對(duì)新的類似樣本(數(shù)學(xué)上稱為i.i.d.測(cè)試集)進(jìn)行分類。但是,在稍有不同的數(shù)據(jù)集(o.o.d.測(cè)試集,最下面一行)上對(duì)其進(jìn)行測(cè)試揭示了一種捷徑策略:網(wǎng)絡(luò)已學(xué)會(huì)將對(duì)象位置與類別相關(guān)聯(lián)。在訓(xùn)練過程中,星星總是顯示在圖片的右上角或左下角;月亮則顯示在左上角或右下角。這種模式仍然存在于來自i.i.d.測(cè)試集(中間一行)的樣本中,但在o.o.d.測(cè)試圖像(下排)中不存在,從而暴露了捷徑現(xiàn)象。這里最重要的一點(diǎn)是,在訓(xùn)練設(shè)置約束下,位置和形狀都是有效的解決方案,因此,沒有理由期望神經(jīng)網(wǎng)絡(luò)更喜歡其中一個(gè)。然而,人類具有使用物體形狀的強(qiáng)烈直覺。就像這個(gè)例子看起來那樣,對(duì)抗性例子,偏向機(jī)器學(xué)習(xí)模型,缺乏領(lǐng)域通用性和輸入略有變化引起的失效等都可以理解為捷徑學(xué)習(xí)現(xiàn)象的實(shí)例。
例如,研究人員開發(fā)了一種機(jī)器分類器,能夠從多家醫(yī)院的X光掃描中成功檢測(cè)出肺炎,但是對(duì)于來自新醫(yī)院的掃描,它的性能卻出人意料地低:該模型意外地學(xué)會(huì)了以近乎完美的精確度識(shí)別特定的醫(yī)院系統(tǒng)(例如,通過在掃描中檢測(cè)到醫(yī)院特定的金屬標(biāo)記,請(qǐng)參見左圖)。加上醫(yī)院的肺炎患病率,它在訓(xùn)練過程中就可以達(dá)到相當(dāng)好的預(yù)測(cè),而根本無需了解太多肺炎的知識(shí)。分類器沒有學(xué)習(xí)如何“理解”肺炎,而是選擇了最簡(jiǎn)單的解決方案,僅查看標(biāo)記類型。
深度學(xué)習(xí)之外的捷徑學(xué)習(xí)
通常,這樣的失敗案例可以被視為機(jī)器學(xué)習(xí)算法不可信任的原因。然而,生物學(xué)學(xué)習(xí)者也遇到非常相似的失敗模式。在牛津大學(xué)實(shí)驗(yàn)室的一項(xiàng)實(shí)驗(yàn)中,研究人員觀察到,老鼠可以僅根據(jù)細(xì)微的色差學(xué)習(xí)到穿越復(fù)雜迷宮的方法,這非常令人驚訝,因?yàn)槔鲜蟮囊暰W(wǎng)膜僅具有基本的視覺能力,視力非常差。深入研究這個(gè)奇怪的現(xiàn)象,我們會(huì)發(fā)現(xiàn)原來老鼠欺騙了研究人員:他們?cè)趯?shí)驗(yàn)中根本沒有使用視覺系統(tǒng),而是僅僅通過迷宮壁上使用的彩色涂料的氣味來區(qū)分顏色。一旦控制了氣味,老鼠們卓越的顏色辨別能力就消失了。
動(dòng)物通常以一種意想不到的方式解決一個(gè)實(shí)驗(yàn)范式(即數(shù)據(jù)集),而未使用人們真正感興趣的能力,從而迷惑實(shí)驗(yàn)者。對(duì)人類來說,這凸顯了想用比人類現(xiàn)有方式更復(fù)雜的方式來解決一項(xiàng)艱巨的挑戰(zhàn)是多么的困難。當(dāng)然,在Marr的實(shí)驗(yàn)實(shí)現(xiàn)層面,老鼠和人的顏色辨別能力可能存在差異。但是在算法級(jí)別上,通常會(huì)默認(rèn)一個(gè)假設(shè),即類人的表現(xiàn)意味著類人的策略(或算法)。這種“相同的策略假設(shè)”同樣存在于深度學(xué)習(xí):即使DNN單元與生物神經(jīng)元不同,但如果DNN成功識(shí)別出物體,那么似乎可以很自然地認(rèn)為它們是像人類一樣使用通過物體的形狀來識(shí)別物體。因此,我們需要區(qū)分實(shí)驗(yàn)對(duì)象在一個(gè)數(shù)據(jù)集的性能表現(xiàn)與獲取能力之間的聯(lián)系,在將“物體識(shí)別”或“語言理解”等高級(jí)能力賦予機(jī)器之前,我們要非常謹(jǐn)慎,因?yàn)橥ǔS幸粋€(gè)更簡(jiǎn)單的解釋:
可以歸因于捷徑學(xué)習(xí)時(shí),切勿使用高級(jí)能力進(jìn)行解釋。
捷徑學(xué)習(xí)需要我們改變基準(zhǔn)測(cè)量的方式
從歷史上看,機(jī)器學(xué)習(xí)研究主要由基準(zhǔn)驅(qū)動(dòng),基準(zhǔn)測(cè)試通過在任務(wù)和數(shù)據(jù)集的固定組合上對(duì)算法進(jìn)行評(píng)估,使算法具有可比性。這種模式在很短的時(shí)間內(nèi)就引領(lǐng)了該領(lǐng)域的巨大進(jìn)步。但這并非沒有缺點(diǎn)。一方面,它為研究人員提供了強(qiáng)大的動(dòng)力,使其可以將精力更多地集中在改進(jìn)現(xiàn)有基準(zhǔn)的新穎算法的開發(fā)上,而不是了解他們的算法或基準(zhǔn)。然而,這種對(duì)理解的忽視,恰恰讓是讓捷徑學(xué)習(xí)成為深度學(xué)習(xí)中普遍存在問題的部分原因。
讓我們看一個(gè)著名的例子:ImageNet 數(shù)據(jù)集和挑戰(zhàn)賽創(chuàng)建于2009年,作為一種新的衡量對(duì)象識(shí)別進(jìn)度、算法識(shí)別和分類對(duì)象能力的方法。由于ImageNet規(guī)模巨大,它本身是一個(gè)未解決的問題,沒人膽敢挑戰(zhàn)。它的多樣性和規(guī)模為當(dāng)前的深度學(xué)習(xí)革命鋪平了道路。Krizhevsky等人2012年的論文和挑戰(zhàn)賽的耀眼成績(jī)證明了具有學(xué)習(xí)權(quán)重的深層神經(jīng)網(wǎng)絡(luò)可以用獨(dú)特的方式處理這種復(fù)雜性(而不是當(dāng)時(shí)普遍的手工調(diào)整圖像分析方法)。在接下來的幾年中,ImageNet成為ImageNet基準(zhǔn)測(cè)試進(jìn)步和性能提升的推動(dòng)力,成為計(jì)算機(jī)視覺進(jìn)步的代名詞。
直到最近幾年,隨著越來越多的DNN失效案例的出現(xiàn),這種情況才開始慢慢改變。所有這些失效案例背后的一個(gè)主要原因是,盡管ImageNet具有規(guī)模和多樣性,但它并不需要真正的對(duì)象識(shí)別,從某種意義上說,模型必須正確地識(shí)別和分類我們用作標(biāo)簽的前景對(duì)象。相反,在許多情況下,對(duì)象的背景、紋理或其他對(duì)人類不太明顯的捷徑可以很好地被識(shí)別。如果比場(chǎng)景中的主要對(duì)象更容易識(shí)別背景,網(wǎng)絡(luò)通常會(huì)學(xué)習(xí)利用這一點(diǎn)進(jìn)行分類。
這種行為所引起的后果,是神經(jīng)網(wǎng)絡(luò)泛化能力的失敗。下圖左側(cè)是人們期望模型進(jìn)行泛化的幾個(gè)方向。不管是手繪的黑白的還是彩色的門牌號(hào),5都是5。同樣,在姿態(tài)、紋理或背景上的輕微變形或變化也不會(huì)影響我們對(duì)圖像中主要對(duì)象的預(yù)測(cè)。相比之下,DNN很容易被欺騙。有趣的是,這并不意味著DNN完全不能泛化:事實(shí)上,在對(duì)人類幾乎沒有意義的方向上,它們還是可以很好地泛化。下圖的右側(cè)顯示了一些例子,從一些可理解的(置亂圖像以僅保留其紋理)到完全不可理解。
導(dǎo)致捷徑學(xué)習(xí)和隨后的泛化失效的關(guān)鍵問題是我們對(duì)任務(wù)的理解與它實(shí)際上激發(fā)學(xué)習(xí)的模型之間的差異。我們?nèi)绾螠p輕這個(gè)問題并提供對(duì)捷徑學(xué)習(xí)的洞察力?當(dāng)前大多數(shù)基準(zhǔn)測(cè)試的主要缺點(diǎn)是,它們會(huì)測(cè)試訓(xùn)練集中相同數(shù)據(jù)分布的圖像(iid測(cè)試)。這種類型的評(píng)估僅需要一種較弱的泛化形式。但是,我們需要強(qiáng)大的歸納能力,這些能力大致與我們的直覺相吻合。為了測(cè)試這些,我們需要良好的分布外測(cè)試(ood測(cè)試),這些測(cè)試應(yīng)具有明顯的分布變化,明確定義的預(yù)期解決方案,并提供模型學(xué)習(xí)捷徑的節(jié)點(diǎn)。
但還不止于此:當(dāng)模型變得越來越好時(shí),它們會(huì)學(xué)習(xí)利用微妙的捷徑,因此我們預(yù)測(cè),基準(zhǔn)測(cè)試也會(huì)越來越強(qiáng)。這種“滾動(dòng)基準(zhǔn)”可以確保我們?cè)谀P烷_發(fā)過程中不會(huì)失去對(duì)最初目標(biāo)的跟蹤,而會(huì)不斷地將精力重新集中在解決我們真正關(guān)心的潛在問題上,同時(shí)加深我們對(duì)建模管道與模型之間相互作用的理解。
跨過捷徑實(shí)現(xiàn)理解,該怎么做?
科學(xué)的目標(biāo)就是理解。盡管深度學(xué)習(xí)作為一門工程學(xué)科在過去幾年中取得了長(zhǎng)足的進(jìn)步,但深度理解作為一門科學(xué)學(xué)科,在理解控制機(jī)器學(xué)習(xí)如何從數(shù)據(jù)中提取模式的原理和局限性方面仍非常落后。更加深入地理解捷徑學(xué)習(xí)不僅關(guān)乎當(dāng)前機(jī)器學(xué)習(xí)的應(yīng)用,未來還可能有助于跨學(xué)科研究,如與經(jīng)濟(jì)學(xué)(通過獎(jiǎng)勵(lì)意外的“捷徑”行為來設(shè)計(jì)不會(huì)危及長(zhǎng)期成功的管理激勵(lì)措施)、法律(創(chuàng)建沒有“漏洞”捷徑機(jī)會(huì)的法律)交叉融合的機(jī)會(huì)。但是,必須指出,我們可能永遠(yuǎn)不會(huì)完全解決捷徑學(xué)習(xí)。模型始終以減少的信息為基礎(chǔ)來做出決策,因此泛化失敗不可避免:受捷徑學(xué)習(xí)影響而失敗將會(huì)是常態(tài),而不是意外。為了深入理解捷徑學(xué)習(xí),或減輕它的影響,我們有五個(gè)建議:
(1)連接點(diǎn):捷徑學(xué)習(xí)無處不在
捷徑學(xué)習(xí)似乎是生物學(xué)和人工學(xué)習(xí)系統(tǒng)的普遍特征。深度學(xué)習(xí)中的許多問題都與捷徑學(xué)習(xí)有關(guān)——模型利用數(shù)據(jù)集捷徑機(jī)會(huì),僅選擇一些預(yù)測(cè)特征而不是仔細(xì)考慮所有可用證據(jù),因此因各種原因失敗。受影響區(qū)域之間的“連接點(diǎn)”很可能會(huì)促進(jìn)發(fā)展,并且在各個(gè)應(yīng)用場(chǎng)景中產(chǎn)生極有價(jià)值的影響。
(2)認(rèn)真解讀結(jié)果
發(fā)現(xiàn)捷徑通常意味著,一個(gè)看似復(fù)雜的數(shù)據(jù)集可以用簡(jiǎn)單的方案解決。我們認(rèn)為,在將諸如“對(duì)象識(shí)別”或“語言理解”之類的高級(jí)功能歸因于機(jī)器之前,我們需要格外小心,因?yàn)橥ǔ?huì)有更簡(jiǎn)單的解釋。
(3)測(cè)試分布外的泛化表現(xiàn)
評(píng)估iid測(cè)試數(shù)據(jù)的模型性能(就像當(dāng)前大多數(shù)基準(zhǔn)測(cè)試一樣)不足以區(qū)分預(yù)期的和意外的(捷徑)解決方案。因此,分布外的測(cè)試是必須要做的。
(4)了解是什么讓解決方案易于學(xué)習(xí)
DNN總是學(xué)習(xí)最簡(jiǎn)單的問題解決方案,但是要了解哪種解決方案更簡(jiǎn)單(從而容易學(xué)習(xí)),則需要弄清結(jié)構(gòu)(體系結(jié)構(gòu))、經(jīng)驗(yàn)(訓(xùn)練數(shù)據(jù))、目標(biāo)(損失函數(shù))和學(xué)習(xí)(優(yōu)化)的影響,以及對(duì)這些因素之間相互作用的透徹理解。
(5)首先弄清楚是否真的要解決這個(gè)問題
捷徑的存在意味著,無論任務(wù)是否得到充分證實(shí),DNN都會(huì)找到解決方案。例如,系統(tǒng)可能試圖根據(jù)敏感的人口統(tǒng)計(jì)學(xué)(例如膚色或種族)或僅根據(jù)外表,用捷徑來評(píng)估信用分?jǐn)?shù)。這很令人擔(dān)憂,因?yàn)楫?dāng)將機(jī)器學(xué)習(xí)用于不明確或有害的任務(wù)時(shí),可能會(huì)強(qiáng)化錯(cuò)誤的假設(shè)和有問題的關(guān)聯(lián)。捷徑方式可以使此類可疑任務(wù)看起來完美可解決。但是,DNN具有高性能處理任務(wù)或基準(zhǔn)的能力永遠(yuǎn)無法證明任務(wù)的存在或潛在假設(shè)。因此,在評(píng)估一項(xiàng)任務(wù)是否可以解決時(shí),我們首先需要問:是否真的要解決這個(gè)問題?如果答案是yes,、應(yīng)該用AI來解決嗎?
捷徑學(xué)習(xí)是當(dāng)前ML模型與人類智能之間最具標(biāo)志性的差異。但具有諷刺意味的是,正是這種對(duì)“作弊”的偏愛,使神經(jīng)網(wǎng)絡(luò)看起來幾乎和人類又相像了幾分:誰還沒有過在考試前偷懶背材料,而不是花時(shí)間去真正理解的經(jīng)歷?誰從來沒有試圖在一項(xiàng)法規(guī)中尋找漏洞,而不是堅(jiān)持法律的精神?最后,神經(jīng)網(wǎng)絡(luò)也許和(懶惰的)人類并沒有什么不同……
本觀點(diǎn)基于以下論文:
Geirhos,R.,Jacobsen,JH,Michaelis,C.,Zemel,R.,Brendel,W.,Bethge,M.&Wichmann,F(xiàn)A(2020)。深度神經(jīng)網(wǎng)絡(luò)中的快捷學(xué)習(xí)。arXiv預(yù)印本arXiv:2004.07780。
作者簡(jiǎn)介
Dr.J?rn-HenrikJacobsen,圖賓根大學(xué)博士后,在阿姆斯特丹大學(xué)獲得博士學(xué)位,研究廣泛涉獵學(xué)習(xí)有用的含義和世界的通用表示形式,特別關(guān)注分布外的概括,無監(jiān)督表示學(xué)習(xí),穩(wěn)定性保證和算法偏差。
Robert Geirhos,德國(guó)馬克斯·普朗克國(guó)際智能系統(tǒng)研究學(xué)院的博士,獲得蒂賓根大學(xué)計(jì)算機(jī)科學(xué)專業(yè)碩士學(xué)位,專注于人類和計(jì)算機(jī)視覺研究。
Claudio Michaelis,國(guó)際馬克斯·普朗克智能系統(tǒng)研究學(xué)院博士,獲康斯坦茨大學(xué)碩士學(xué)位,興趣領(lǐng)域?yàn)槔斫馊斯ど窠?jīng)網(wǎng)絡(luò)。
原文鏈接:
https://thegradient.pub/shortcuts-neural-networks-love-to-cheat/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
伺服電機(jī)相關(guān)文章:伺服電機(jī)工作原理
隔離器相關(guān)文章:隔離器原理