ECCV 2022 | 多域長(zhǎng)尾分布學(xué)習(xí),不平衡域泛化問(wèn)題研究(開(kāi)源)
來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/539749541編輯丨極市平臺(tái) 導(dǎo)讀
本文由被ECCV2022接受論文的作者親自解讀,講述如何推廣傳統(tǒng)不平衡分類(lèi)問(wèn)題的范式,將數(shù)據(jù)不平衡問(wèn)題從單領(lǐng)域推廣到多領(lǐng)域。
前言項(xiàng)目主頁(yè):http://mdlt.csail.mit.edu/論文鏈接:https://arxiv.org/abs/2203.09513代碼,數(shù)據(jù)和模型開(kāi)源鏈接:https://github.com/YyzHarry/multi-domain-imbalance來(lái)給大家介紹一下我們的新工作,目前已被ECCV 2022接收:On Multi-Domain Long-Tailed Recognition, Imbalanced Domain Generalization and Beyond。顧名思義,這項(xiàng)工作研究的問(wèn)題是當(dāng)有多個(gè)領(lǐng)域(domain)數(shù)據(jù),且這些 domain 都存在(可能互不相同的)數(shù)據(jù)不平衡情況下,該如何學(xué)習(xí)到魯棒的模型?,F(xiàn)有的處理不平衡數(shù)據(jù)/長(zhǎng)尾分布的方法僅針對(duì)單域,即數(shù)據(jù)來(lái)源于同一個(gè) domain;但是,自然數(shù)據(jù)可以源自不同 domain,而其中一個(gè) domain 中的 minority class 可能在其他 domain 會(huì)是 majority class;而有效的利用不同域的數(shù)據(jù)很可能會(huì)提升長(zhǎng)尾學(xué)習(xí)的表現(xiàn)。本文推廣了傳統(tǒng)不平衡分類(lèi)問(wèn)題的范式,將數(shù)據(jù)不平衡問(wèn)題從單領(lǐng)域推廣到多領(lǐng)域。其中,多域長(zhǎng)尾學(xué)習(xí)(Multi-Domain Long-Tailed Recognition,MDLT)的首個(gè)目標(biāo),是模型能夠在每一個(gè) domain 的每一個(gè) class 上,都有較好的 performance。而更一進(jìn)步,因?yàn)閺亩鄠€(gè)不同的 domain 學(xué)習(xí),我們希望模型也能夠泛化到 unseen domain,即 (Imbalanced) Domain Generalization,不平衡域泛化。我們首先提出了 domain-class transferability graph,用來(lái)刻畫(huà)不同 <domain, class>對(duì) 之間的可轉(zhuǎn)移性(相似程度)。我們發(fā)現(xiàn),基于這種定義的 transferability,直接決定了模型在 MDLT 任務(wù)上的表現(xiàn)。在此基礎(chǔ)上,基于理論分析,我們提出了 BoDA,一個(gè)理論上能夠 upper-bound 住 transferability 統(tǒng)計(jì)量的損失函數(shù),來(lái)提升模型在 MDLT 問(wèn)題上的性能。我們基于流行的多域數(shù)據(jù)集,構(gòu)建了五個(gè)新的 benchmark MDLT 數(shù)據(jù)集,并實(shí)現(xiàn)和對(duì)比了約 20種 涵蓋 DA,DG,imbalance 等不同的算法,發(fā)現(xiàn) BoDA 能夠穩(wěn)定提升 MDLT 的性能。此外,更有意思的是,我們發(fā)現(xiàn)目前流行的 域泛化(domain generalization,DG)問(wèn)題的數(shù)據(jù)集本質(zhì)上也是不平衡的,這種不平衡貫穿于 (1) 同一個(gè) domain 內(nèi)部的標(biāo)簽不平衡;(2)不同 domain 之間的不平衡標(biāo)簽分布的不一致。這證實(shí)了數(shù)據(jù)不平衡是 DG 中的一個(gè)內(nèi)在問(wèn)題, 但被過(guò)去的工作所忽視。神奇的是,我們發(fā)現(xiàn)當(dāng)和 DG 算法結(jié)合到一起,BoDA 能穩(wěn)定提升 DG 的表現(xiàn),這也揭示了標(biāo)簽不平衡會(huì)影響 out-of-distribution generalization,而實(shí)用魯棒的 DG 算法設(shè)計(jì)也需要整合標(biāo)簽不平衡的重要性。
1. 研究背景與動(dòng)機(jī)現(xiàn)實(shí)世界的數(shù)據(jù)經(jīng)常表現(xiàn)出標(biāo)簽不平衡 — 現(xiàn)實(shí)數(shù)據(jù)通常不會(huì)是每個(gè)類(lèi)別都具有理想的均勻分布,而是本質(zhì)上會(huì)呈現(xiàn)長(zhǎng)尾分布,其中某些類(lèi)別的觀測(cè)數(shù)據(jù)量明顯較少。為了應(yīng)對(duì)這種現(xiàn)象,許多解決數(shù)據(jù)不平衡的方法被陸續(xù)提出;完整的現(xiàn)有不平衡學(xué)習(xí)方法調(diào)研歡迎查看:分類(lèi)機(jī)器學(xué)習(xí)中,某一標(biāo)簽占比太大(標(biāo)簽稀疏),如何學(xué)習(xí)?(https://www.zhihu.com/question/372186043/answer/1501948720)但是,現(xiàn)有的從不平衡數(shù)據(jù)中學(xué)習(xí)的解決方案,主要考慮的是 single domain 的情況,也就是說(shuō)所有樣本來(lái)自于同樣的 data distribution。然而,真實(shí)情況下,針對(duì)同一項(xiàng)任務(wù)的數(shù)據(jù)可以來(lái)自不同的域(domain)。例如下圖所示,Terra Incognita[1] 是一個(gè)實(shí)際采集的野生動(dòng)物識(shí)別+分類(lèi)的數(shù)據(jù)集。左邊子圖顯示的是在不同位置建立的 camera trap,以及拍到的野生動(dòng)物樣例;而右圖則是(一部分)不同 camera location 拿到的具體數(shù)據(jù)分布以及其拍攝效果。我們可以明顯的看出,即使是同一個(gè) wildlife 分類(lèi)任務(wù),不同 camera 的參數(shù)、拍攝背景、光照強(qiáng)度等也完全不同,即不同 camera trap 之間存在 domain gap。而由于某些動(dòng)物只會(huì)出現(xiàn)在特定位置,這導(dǎo)致了一個(gè) camera(domain)的數(shù)據(jù)是不平衡的,甚至沒(méi)有某一些類(lèi)別的數(shù)據(jù)(例如 location 100 幾乎沒(méi)有類(lèi)別0和1的數(shù)據(jù))。但由于不同 camera 拍到的 label distribution 往往截然不同,這也暗示了其他 domain 很可能在這些類(lèi)別有許多樣本 — 如 location 46 就有較多的類(lèi)別1 的數(shù)據(jù)。這說(shuō)明了我們可以利用多域數(shù)據(jù)來(lái)解決在每個(gè)域內(nèi)固有的數(shù)據(jù)不平衡問(wèn)題。Terra Incognita數(shù)據(jù)集樣例。同一個(gè)wildlife分類(lèi)任務(wù)中,不同相機(jī)的參數(shù)、拍攝背景、光照強(qiáng)度等也完全不同;并且,同一個(gè)相機(jī)拿到的數(shù)據(jù)也是類(lèi)別極度不平衡的;不僅如此,不同相機(jī)拍到的標(biāo)簽分布也截然不同,往往是非常mismatch的。但這也說(shuō)明我們可以利用多域數(shù)據(jù)來(lái)解決每個(gè)域內(nèi)固有的數(shù)據(jù)不平衡。同樣,在其他實(shí)際應(yīng)用中也會(huì)發(fā)生類(lèi)似的情況。例如,在視覺(jué)識(shí)別問(wèn)題中,來(lái)自“照片”圖像的少數(shù)類(lèi)可以用來(lái)自“草圖”圖像的潛在豐富樣本來(lái)補(bǔ)充。同樣,在自動(dòng)駕駛中,“現(xiàn)實(shí)”生活中的少數(shù)事故類(lèi)別可以通過(guò)“模擬”中產(chǎn)生的事故來(lái)豐富。此外,在醫(yī)學(xué)診斷中,來(lái)自不同人群的數(shù)據(jù)可以相互增強(qiáng),例如其中一個(gè)機(jī)構(gòu)的少數(shù)樣本可以與其他機(jī)構(gòu)的可能存在的多數(shù)實(shí)例相結(jié)合。在以上這些例子中,不同的數(shù)據(jù)類(lèi)型可以充當(dāng)不同的域,而這樣的多域數(shù)據(jù)也可以被有效的利用來(lái)解決數(shù)據(jù)不平衡問(wèn)題。因此,在這項(xiàng)工作中,我們定義并研究多域長(zhǎng)尾分布學(xué)習(xí),Multi-Domain Long-Tailed Recognition(MDLT),即從來(lái)自多個(gè)不同域的不平衡數(shù)據(jù)中學(xué)習(xí)。具體來(lái)說(shuō),給定具有多個(gè)域的目標(biāo)數(shù)據(jù)集,MDLT 旨在從來(lái)自多域的不平衡數(shù)據(jù)中學(xué)習(xí),解決每個(gè)域內(nèi)的標(biāo)簽不平衡、不同域之前的不同標(biāo)簽分布,并且最終模型能夠泛化到所有域的所有類(lèi)別上。對(duì)于 MDLT 我們考慮用一個(gè)在每個(gè)域的每個(gè)類(lèi)別上分布是平衡的測(cè)試集來(lái)測(cè)試模型的泛化能力,這樣能夠?yàn)?MDLT 提供非常全面并且沒(méi)有偏差的評(píng)估。這種 setting 也是對(duì)單域長(zhǎng)尾識(shí)別問(wèn)題的自然的推廣,與其 setting 保持一致。
多域長(zhǎng)尾分布學(xué)習(xí),Multi-Domain Long-Tailed Recognition(MDLT),即從來(lái)自多個(gè)不同域的不平衡數(shù)據(jù)中學(xué)習(xí),解決每個(gè)域內(nèi)的標(biāo)簽不平衡、不同域之前的不同標(biāo)簽分布,并泛化到所有域的所有類(lèi)別上。
2. 多域長(zhǎng)尾學(xué)習(xí)的難點(diǎn)與挑戰(zhàn)需要注意到的是,相比于單域的長(zhǎng)尾識(shí)別問(wèn)題,MDLT 帶來(lái)了以下全新的挑戰(zhàn)。(一)首先,每個(gè)域的標(biāo)簽分布都可能與其他域不同(label distribution shift across domains)。例如,在上一個(gè)gif圖中,“照片” 和 “卡通” 域都表現(xiàn)出不平衡的標(biāo)簽分布;然而,“卡通” 中的 “馬” 類(lèi)比 “照片” 中的樣本多得多。因此,除了域內(nèi)數(shù)據(jù)不平衡之外,這還帶來(lái)了跨域標(biāo)簽分布不同的挑戰(zhàn)。(二)此外,多域數(shù)據(jù)必然會(huì)涉及到域之間存在偏差(domain shift)。簡(jiǎn)單地將來(lái)自不同域的數(shù)據(jù)視為一個(gè)整體并應(yīng)用傳統(tǒng)的數(shù)據(jù)不平衡方法不太可能產(chǎn)生最佳結(jié)果,因?yàn)橛蛑g的 gap 可以任意大。例如在第一張圖中顯示的 wildlife camera traps,不同camera的參數(shù)、拍攝背景等往往差距很大,而模型設(shè)計(jì)上也需要考慮到這一點(diǎn)。(三)最后,與單域不同,在多域長(zhǎng)尾學(xué)習(xí)中,某些域的某些類(lèi)別可能就根本沒(méi)有數(shù)據(jù)。因此,MDLT 自然地包含了 域內(nèi) 和 跨域 的零樣本泛化(zero-shot generalization within and across domains) — 即(1)泛化到域內(nèi)缺失類(lèi)(gif圖中 “草圖” 域的右側(cè)部分);以及(2)完全沒(méi)有訓(xùn)練數(shù)據(jù)的新域,也通常稱(chēng)為域泛化(Domain Generalization,DG)。總結(jié)上述的問(wèn)題,我們可以看到MDLT相比與傳統(tǒng)的單域不平衡分類(lèi)具有全新的難點(diǎn)與挑戰(zhàn)。那么,我們應(yīng)該如何進(jìn)行多域長(zhǎng)尾學(xué)習(xí)呢?在接下來(lái)的兩節(jié),我們將從整體建模、motivating examples、觀察到的現(xiàn)象、理論推導(dǎo),到最終損失函數(shù)的設(shè)計(jì),來(lái)一步一步分析這個(gè)問(wèn)題,并最終提升模型在MDLT任務(wù)上的表現(xiàn)。
3. Domain-Class Transferability Graph(域-類(lèi)對(duì)可轉(zhuǎn)移性圖)這里我們首先提出了一系列定義,來(lái)對(duì) MDLT 這個(gè)問(wèn)題建模。在單域長(zhǎng)尾識(shí)別問(wèn)題中,我們通常考慮的 “最小單位” 是 一個(gè)類(lèi)別(class),也即按照樣本數(shù)量不同分成 majority classes 和 minority classes。然而當(dāng)拓展到多域情況,我們?cè)撊绾味x這個(gè) “最小單位”,從而能同時(shí)考慮到 domain shift 和 class imbalance 呢?我們提出,在 MDLT 下,這個(gè)基本單元自然而然地變成了一個(gè) “域-類(lèi)對(duì)”(domain-class pair)。那么當(dāng)我們從 “域類(lèi)對(duì)” 下手,我們則可以在 embedding space 上,通過(guò)定義不同域類(lèi)對(duì)之間的距離,來(lái)定義其之間的可轉(zhuǎn)移性(相似程度):直觀地說(shuō),兩個(gè)域類(lèi)對(duì)之間的可遷移性是它們特征之間的平均距離,表征它們?cè)谔卣骺臻g中的接近程度。距離函數(shù) d 默認(rèn)設(shè)置為 Euclidean distance(一階統(tǒng)計(jì)量),但也可以選用其他距離來(lái)度量高階統(tǒng)計(jì)量(例如用 Mahalanobis distance 也用到了 covariance)。那么自然而然地,基于 transferability 我們可以定義 transferability graph(可轉(zhuǎn)移性圖):
在 Transferability graph 里,每一個(gè) node 是一個(gè) 域類(lèi)對(duì),而每一條邊則是兩個(gè)域類(lèi)對(duì)之間的 transferability。通過(guò)這種定義,我們可以直觀地將 transferability graph 可視化到一個(gè)二維平面。
可轉(zhuǎn)移性圖的總體框架。(a) 為所有域類(lèi)對(duì)計(jì)算分布統(tǒng)計(jì)量,由此我們生成一個(gè)完整的可轉(zhuǎn)移性矩陣。(b) 我們利用 MDS 將可轉(zhuǎn)移性圖投影到二維空間中進(jìn)行可視化。(c) 我們定義 (α, β, γ) 可轉(zhuǎn)移性統(tǒng)計(jì)量以進(jìn)一步描述整個(gè)可轉(zhuǎn)移性圖。具體而言,由上圖 (a)(b) 所示,對(duì)于每一個(gè)域類(lèi)對(duì),我們可以計(jì)算出屬于這個(gè)域類(lèi)對(duì)的所有數(shù)據(jù)的特征統(tǒng)計(jì)量(mean,covariance等)。那么對(duì)于不同域類(lèi)對(duì),我們進(jìn)一步計(jì)算兩兩之間的 transferability,由此我們生成一個(gè)完整的可轉(zhuǎn)移性圖,由矩陣形式表示(圖a)。之后我們可以使用多維縮放(MDS)[2] 在2D平面上可視化這種相似性以及其可轉(zhuǎn)移性圖(圖b)。在圖b中,我們可以看到不同domain用不同顏色來(lái)標(biāo)記,每一個(gè)點(diǎn)代表一個(gè)域類(lèi)對(duì),其大小代表所含數(shù)據(jù)量多少,數(shù)字則代表具體類(lèi)別;而他們之間的距離,則可以看作 transferability。顯而易見(jiàn),我們希望相同的數(shù)字(即相同類(lèi)別)的域類(lèi)對(duì)更接近,而不同類(lèi)別的域類(lèi)對(duì)互相遠(yuǎn)離;而這種關(guān)系,能夠更加被抽象化成三種可轉(zhuǎn)移性統(tǒng)計(jì)量:不同domain相同class( α ),相同domain不同class( β ),以及不同domain不同class( γ ):
那么到此為止,我們?yōu)?MDLT 進(jìn)行了建模和數(shù)學(xué)形式上的定義。接下來(lái)我們將進(jìn)一步探索 transferability 和 最終MDLT performance的關(guān)系。
我們首先發(fā)現(xiàn):由于不平衡的存在,不同域上不同的標(biāo)簽分布阻礙了模型學(xué)到可轉(zhuǎn)移的特征。Motivating Example:我們首先構(gòu)建了一個(gè)小型 MDLT 數(shù)據(jù)集,Digits-MLT,是將兩個(gè)數(shù)字分類(lèi)數(shù)據(jù)集合并到一起:(1) MNIST-M[3],一個(gè)彩色背景的MNIST手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集,以及 (2) SVHN[4],一個(gè)街頭拍攝的數(shù)字?jǐn)?shù)據(jù)集。這兩個(gè)數(shù)據(jù)集的任務(wù)是一致的,也即0~9的十個(gè)數(shù)字分類(lèi)問(wèn)題。我們手動(dòng)改變每個(gè)域類(lèi)對(duì)的樣本數(shù)量以模擬不同的標(biāo)簽分布,并針對(duì)每種情況使用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (ERM) 訓(xùn)練一個(gè)普通的 ResNet-18。我們保持所有測(cè)試集是平衡且相同的。改變 Digits-MLT 的標(biāo)簽比例時(shí)可轉(zhuǎn)移性圖的演變模式。(a) 兩個(gè)域的標(biāo)簽分布是平衡且相同的。(b) 兩個(gè)域的標(biāo)簽分布不平衡但相同。(c) 兩個(gè)域的標(biāo)簽分布不平衡且發(fā)散。上圖的結(jié)果揭示了有趣的觀察結(jié)果。當(dāng)每個(gè)域的標(biāo)簽分布平衡且跨域相同時(shí),盡管存在域差距,但并不妨礙模型學(xué)習(xí)高精度(90.5%)的判別特征,如圖a 所示。如果標(biāo)簽分布不平衡但保持相同(圖b),ERM 仍然能夠?qū)R兩個(gè)域中的相似類(lèi),其中多數(shù)類(lèi)(例如類(lèi)9)在可轉(zhuǎn)移性方面要好于少數(shù)類(lèi)(例如類(lèi)0)。相反,當(dāng)標(biāo)簽在域之間既不平衡又不匹配時(shí),如圖c 所示,學(xué)習(xí)到的特征不再是可遷移的,這也導(dǎo)致了學(xué)到的特征在域之間存在明顯的gap,以及最差的準(zhǔn)確率。這是因?yàn)榭缬虻牟煌瑯?biāo)簽分布會(huì)產(chǎn)生shortcut;模型可以簡(jiǎn)單地通過(guò)分離兩個(gè)域來(lái)最小化分類(lèi)損失。這種現(xiàn)象表明,可轉(zhuǎn)移的特征是我們所需要的。上面的結(jié)果表明,模型需要學(xué)到跨域類(lèi)對(duì)的可轉(zhuǎn)移的特征,尤其是在數(shù)據(jù)不平衡時(shí)。特別是,同一類(lèi)跨域之間的transferability 應(yīng)大于域內(nèi)或跨域的不同類(lèi)之間的transferability — 而這則可以通過(guò) ( αβγ ) 可轉(zhuǎn)移性統(tǒng)計(jì)量來(lái)量化。
承接上文,我們說(shuō)到模型需要可轉(zhuǎn)移的特征,而可轉(zhuǎn)移性統(tǒng)計(jì)量則可以幫助量化判斷模型的好壞。那么可轉(zhuǎn)移性統(tǒng)計(jì)量和 模型performance 的具體關(guān)系是什么呢?Motivating Example:同樣,我們使用具有不同標(biāo)簽分布的 Digits-MLT。我們考慮三種不平衡類(lèi)型來(lái)組成不同的標(biāo)簽配置:(1)統(tǒng)一(即平衡標(biāo)簽),(2)前向長(zhǎng)尾,其中標(biāo)簽在類(lèi)別ID上表現(xiàn)出長(zhǎng)尾分布,以及(3)后向長(zhǎng)尾,其中標(biāo)簽相對(duì)于類(lèi)別ID 是反向長(zhǎng)尾的。對(duì)于每種配置,我們訓(xùn)練了 20 個(gè)具有不同超參數(shù)的 ERM 模型。然后我們計(jì)算每個(gè)模型的 ( αβγ ) 統(tǒng)計(jì)量,并繪制其分類(lèi)準(zhǔn)確度與 βγα 的關(guān)系。(β + γ) - α 統(tǒng)計(jì)量與 Digits-MLT 不同標(biāo)簽配置的測(cè)試準(zhǔn)確度之間的對(duì)應(yīng)關(guān)系。每個(gè)子圖代表兩個(gè)域的特定標(biāo)簽分布(例如,子圖a對(duì)域1 使用“Uniform”,對(duì)域2 使用“Uniform”)。圖中每個(gè)點(diǎn)對(duì)應(yīng)于使用不同超參數(shù)使用 ERM 訓(xùn)練的模型。上圖揭示了以下發(fā)現(xiàn):
- ( αβγ ) 統(tǒng)計(jì)量表征了模型在 MDLT 中的性能。特別是, βγα 統(tǒng)計(jì)量在整個(gè)范圍上和每個(gè)標(biāo)簽配置的測(cè)試性能均顯示出非常強(qiáng)的相關(guān)性。
- 數(shù)據(jù)不平衡會(huì)增加學(xué)到不可遷移特征的風(fēng)險(xiǎn)。當(dāng)跨域的標(biāo)簽分布一致且平衡時(shí)(圖a),模型對(duì)變化的參數(shù)具有魯棒性,在右上區(qū)域聚集。然而,隨著標(biāo)簽變得不平衡(圖b、c)和進(jìn)一步發(fā)散(圖d、e),模型學(xué)習(xí)不可遷移特征(即較低的 βγα)的機(jī)會(huì)增加,導(dǎo)致性能大幅下降。
我們利用上述發(fā)現(xiàn)設(shè)計(jì)了一個(gè)特別適合 MDLT 的新?lián)p失函數(shù)。我們將首先介紹損失函數(shù),然后理論證明它最小化了 ( αβγ ) 統(tǒng)計(jì)量的上限。我們從一個(gè)受度量學(xué)習(xí)目標(biāo)啟發(fā)的簡(jiǎn)單損失開(kāi)始,并稱(chēng)這種損失為 ,因?yàn)樗荚趯?shí)現(xiàn)域類(lèi)分布的對(duì)齊,即跨域?qū)R同一類(lèi)的特征:直觀來(lái)看, 解決了標(biāo)簽分布跨域不匹配的問(wèn)題,因?yàn)楣蚕硗活?lèi)的域類(lèi)對(duì)將被拉得更近,反之亦然。它還與 ( αβγ ) 統(tǒng)計(jì)有關(guān),因?yàn)榉肿颖硎菊缬驅(qū)?( α ),分母表示負(fù)跨域?qū)?( βγ)。但是,它并沒(méi)有解決標(biāo)簽不平衡問(wèn)題。我們注意到( αβγ )是以平衡的方式定義的,與每個(gè)域類(lèi)對(duì)中的樣本數(shù)無(wú)關(guān)。然而,給定一個(gè)不平衡的數(shù)據(jù)集,大多數(shù)樣本將來(lái)自多數(shù)域類(lèi)對(duì),這將主導(dǎo) 并導(dǎo)致少數(shù)域類(lèi)對(duì)被忽略。BoDA loss:為了應(yīng)對(duì)上述問(wèn)題,我們進(jìn)一步修改公式1,得到 Balanced Domain-Class Distribution Alignment (BoDA) loss —
可以發(fā)現(xiàn),BoDA 將原始的距離函數(shù) d 縮放了 的因子,其中 是域類(lèi)對(duì) 的樣本數(shù)量。即,BoDA 通過(guò)引入平衡的距離度量 來(lái)抵消不平衡域類(lèi)對(duì)的影響。而對(duì)于 ,我們證明了以下定理:
具體的證明細(xì)節(jié)請(qǐng)?jiān)斠?jiàn)我們文章。定理1有如下的有趣的含義:
- 是 ( αβγ ) 統(tǒng)計(jì)量的一種理想的形式的upper-bound。通過(guò)最小化 ,我們確保了低 α (吸引相同的類(lèi))和高 β、γ (分離不同的類(lèi)),這是 MDLT 中泛化的必要條件,自然轉(zhuǎn)化為更好的性能。
- 統(tǒng)計(jì)量中的常數(shù)因子對(duì)應(yīng)于每個(gè)部分對(duì)可遷移性圖的貢獻(xiàn)程度。我們注意到在 里,目標(biāo)與 αβγ 成正比。根據(jù)定義3,我們注意到 總結(jié)了同一類(lèi)的數(shù)據(jù)相似性,而 $ \frac1}{D|β + \fracD|?1D|\gamma使用 β和γ$ 的加權(quán)平均值總結(jié)了不同類(lèi)的數(shù)據(jù)相似性,其中它們的權(quán)重與相關(guān)域的數(shù)量成正比(即, β 為 1, γ 為 )。
BoDA 的工作原理是鼓勵(lì)跨域的相似類(lèi)的特征遷移,即如果 (d, c) 和 (d' , c) 是不同域中的同一類(lèi),那么我們希望將它們的特征是相互遷移的。但是,由于數(shù)據(jù)不平衡,少數(shù)域類(lèi)對(duì)的統(tǒng)計(jì)量估計(jì)值自然會(huì)更差,而這種情況下迫使其他對(duì)轉(zhuǎn)移到它們會(huì)損害模型的學(xué)習(xí)過(guò)程。因此,當(dāng)在特征空間中使兩個(gè)域類(lèi)對(duì)更接近時(shí),我們希望少數(shù)域類(lèi)對(duì)轉(zhuǎn)移到多數(shù),而反過(guò)來(lái)則不是。這里細(xì)節(jié)較多,就直接跳過(guò)了,我們的 paper 中給出了詳細(xì)的 motivating example 和 interpretation。結(jié)論是,可以通過(guò)在 BoDA的基礎(chǔ)上加上一個(gè) Calibration 項(xiàng),由兩個(gè)域類(lèi)對(duì)的相對(duì)樣本數(shù)量來(lái)實(shí)現(xiàn)轉(zhuǎn)移程度的控制:
基準(zhǔn)MDLT數(shù)據(jù)集:終于來(lái)到了激動(dòng)人心的實(shí)驗(yàn)部分 ;) 為了方便對(duì)不平衡算法進(jìn)行標(biāo)準(zhǔn)的測(cè)試,以及方便未來(lái)的research工作,我們?cè)诂F(xiàn)有的multi-domain數(shù)據(jù)集基礎(chǔ)上,建立了五個(gè)MDLT的基準(zhǔn)數(shù)據(jù)集。具體來(lái)說(shuō),我們使用的是域泛化的基準(zhǔn)數(shù)據(jù)集[5],并將它們用于 MDLT 評(píng)估。為此,我們?yōu)槊總€(gè)數(shù)據(jù)集創(chuàng)建兩個(gè)平衡的數(shù)據(jù)集,一個(gè)用于驗(yàn)證,另一個(gè)用于測(cè)試,其余的用于訓(xùn)練。驗(yàn)證和測(cè)試數(shù)據(jù)集的大小分別約為原始數(shù)據(jù)的 5% 和 10%。這些數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)分布如下圖所示:此外,我們選取了近20種算法,涵蓋了 multi-domain learning,distributionally robust optimization,invariant feature learning,meta-learning,imbalanced learning 等各種類(lèi)別作為基線(xiàn)方法比較,并對(duì)每種算法優(yōu)化了超參數(shù)。這樣的過(guò)程確保了比較是最佳與最佳的(best-vs-best),并且超參數(shù)針對(duì)所有算法進(jìn)行了優(yōu)化。在評(píng)估過(guò)程中,除了跨域的平均準(zhǔn)確率外,我們還報(bào)告了所有域的最差準(zhǔn)確率,并將所有域類(lèi)對(duì)進(jìn)一步劃分為幾個(gè)不相交的子集:稱(chēng)為many-shot(訓(xùn)練樣本超過(guò) 100 個(gè)的),medium-shot(20~100 個(gè)訓(xùn)練樣本的),few-shot(訓(xùn)練樣本少于 20 個(gè)的),還有zero-shot(沒(méi)有訓(xùn)練數(shù)據(jù)的),并報(bào)告這些子集的結(jié)果。具體詳見(jiàn)我們的文章。實(shí)驗(yàn):由于實(shí)驗(yàn)較多,這里僅展示在所有數(shù)據(jù)集上的合并結(jié)果,所有的結(jié)果請(qǐng)?jiān)斠?jiàn)論文。如下圖所示,BoDA(及其變種)在所有數(shù)據(jù)集上始終保持最佳平均準(zhǔn)確度。在大多數(shù)情況下,它還可以達(dá)到最佳的最壞情況精度。此外,在某些數(shù)據(jù)集(如OfficeHome-MLT)上,MDL 方法表現(xiàn)更好(如CORAL),而在其他數(shù)據(jù)集(如TerraInc-MLT)上,不平衡方法獲得更高的收益(如CRT);盡管如此,無(wú)論數(shù)據(jù)集如何,BoDA 都優(yōu)于所有方法,突出了其對(duì) MDLT 任務(wù)的有效性。最后,與 ERM 相比,BoDA 略微提高了平均和many-shot的性能,同時(shí)大幅提升了medium-shot、few-shot和zero-shot的性能。
實(shí)驗(yàn)分析之 BoDA 學(xué)到了怎樣的可轉(zhuǎn)移性圖:我們進(jìn)一步來(lái)對(duì)提出的方法做一些進(jìn)一步的分析。我們繪制了通過(guò)BoDA學(xué)到的可轉(zhuǎn)移性圖,并在不同跨域標(biāo)簽分布下與 ERM 進(jìn)性對(duì)比。從下圖可以發(fā)現(xiàn),BoDA 學(xué)習(xí)到了更加平衡的特征空間,將不同的類(lèi)別分開(kāi)。當(dāng)標(biāo)簽分布是平衡且一致時(shí),ERM 和 BoDA 都能學(xué)到好的特征;而當(dāng)標(biāo)簽開(kāi)始不平衡(b,c),甚至跨域不匹配(d,e)時(shí),ERM 的可轉(zhuǎn)移性圖出現(xiàn)了明顯的 domain gap;與之對(duì)應(yīng),BoDA 則能一直學(xué)到平衡且對(duì)齊的特征空間。更好的學(xué)習(xí)特征便轉(zhuǎn)化為更好的準(zhǔn)確度(9.5% 的絕對(duì)準(zhǔn)確度增益)。
域泛化(DG)是指從多個(gè)域中學(xué)習(xí)并泛化到未見(jiàn)過(guò)的域。由于學(xué)習(xí)域的標(biāo)簽分布很可能不同,甚至可能在每個(gè)域內(nèi)都存在類(lèi)不平衡,因此我們研究解決跨域數(shù)據(jù)不平衡是否可以進(jìn)一步增強(qiáng) DG 的性能?;叵胛覀?yōu)?MDLT 建立的所有數(shù)據(jù)集都是 DG 的基準(zhǔn)數(shù)據(jù)集,這證實(shí)了數(shù)據(jù)不平衡是 DG 的一個(gè)內(nèi)在問(wèn)題,但過(guò)去的工作卻忽略了這一點(diǎn)。我們研究 BoDA 是否可以提高 DG 的性能。為了測(cè)試 BoDA,我們遵循標(biāo)準(zhǔn)的 DG 評(píng)估協(xié)議 [5]。通過(guò)上表,我們發(fā)現(xiàn)僅 BoDA 就可以在五個(gè)數(shù)據(jù)集中的四個(gè)上提升當(dāng)前的結(jié)果,并實(shí)現(xiàn)顯著的平均性能提升。此外,結(jié)合當(dāng)前的SOTA,BoDA 進(jìn)一步將所有數(shù)據(jù)集的結(jié)果顯著提升,這表明標(biāo)簽不平衡與現(xiàn)有的 DG 特定算法是正交的。最后,與 MDLT 類(lèi)似,增益取決于數(shù)據(jù)集內(nèi)不平衡的嚴(yán)重程度——例如,TerraInc 表現(xiàn)出跨域最嚴(yán)重的標(biāo)簽不平衡,而 BoDA 在其上獲得最高增益。這些有趣的結(jié)果揭示了標(biāo)簽不平衡如何影響域泛化,并強(qiáng)調(diào)了整合標(biāo)簽不平衡對(duì)于實(shí)際 DG 算法設(shè)計(jì)的重要性。
最后總結(jié)一下本文,我們提出了一個(gè)新的任務(wù),稱(chēng)為多域長(zhǎng)尾分布學(xué)習(xí)(MDLT),同時(shí)我們系統(tǒng)性地研究了MDLT,并提出了有理論保障的新?lián)p失函數(shù) BoDA,以解決多域的學(xué)習(xí)不平衡數(shù)據(jù)的問(wèn)題,最后我們建立了五個(gè)新的benchmark來(lái)方便未來(lái)在多域不平衡數(shù)據(jù)上的研究。本文有很直觀的問(wèn)題分析與解釋?zhuān)碚撟C明,以及用非常簡(jiǎn)潔并且通用的框架去提升多域下的不平衡學(xué)習(xí)任務(wù)。此外,我們發(fā)現(xiàn)標(biāo)簽不平衡會(huì)影響 out-of-distribution generalization,而實(shí)用魯棒的DG算法設(shè)計(jì)也需要整合標(biāo)簽不平衡的重要性。
參考- Recognition in Terra Incognita. ECCV, 2018.
- Multidimensional scaling. Measurement, judgment and decision making, pages 179–250, 1998.
- Domain-adversarial training of neural networks. Journal of machine learning research, 17(1):2096–2030, 2016.
- Reading digits in natural images with unsupervised feature learning. NIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2011.
- In search of lost domain generalization. In ICLR, 2021.
- Delving into Deep Imbalanced Regression. ICML, 2021.
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。