博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ECCV 2022 | 多域長(zhǎng)尾分布學(xué)習(xí),不平衡域泛化問(wèn)題研究(開(kāi)源)

ECCV 2022 | 多域長(zhǎng)尾分布學(xué)習(xí),不平衡域泛化問(wèn)題研究(開(kāi)源)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2022-07-23 來(lái)源:工程師 發(fā)布文章
作者丨Yuzhe Yang@知乎 (已授權(quán))

來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/539749541編輯丨極市平臺(tái)

導(dǎo)讀

 

本文由被ECCV2022接受論文的作者親自解讀,講述如何推廣傳統(tǒng)不平衡分類(lèi)問(wèn)題的范式,將數(shù)據(jù)不平衡問(wèn)題從單領(lǐng)域推廣到多領(lǐng)域。 

前言

圖片

項(xiàng)目主頁(yè):http://mdlt.csail.mit.edu/論文鏈接:https://arxiv.org/abs/2203.09513代碼,數(shù)據(jù)和模型開(kāi)源鏈接:https://github.com/YyzHarry/multi-domain-imbalance來(lái)給大家介紹一下我們的新工作,目前已被ECCV 2022接收:On Multi-Domain Long-Tailed Recognition, Imbalanced Domain Generalization and Beyond。顧名思義,這項(xiàng)工作研究的問(wèn)題是當(dāng)有多個(gè)領(lǐng)域(domain)數(shù)據(jù),且這些 domain 都存在(可能互不相同的)數(shù)據(jù)不平衡情況下,該如何學(xué)習(xí)到魯棒的模型?,F(xiàn)有的處理不平衡數(shù)據(jù)/長(zhǎng)尾分布的方法僅針對(duì)單域,即數(shù)據(jù)來(lái)源于同一個(gè) domain;但是,自然數(shù)據(jù)可以源自不同 domain,而其中一個(gè) domain 中的 minority class 可能在其他 domain 會(huì)是 majority class;而有效的利用不同域的數(shù)據(jù)很可能會(huì)提升長(zhǎng)尾學(xué)習(xí)的表現(xiàn)。本文推廣了傳統(tǒng)不平衡分類(lèi)問(wèn)題的范式,將數(shù)據(jù)不平衡問(wèn)題從單領(lǐng)域推廣到多領(lǐng)域。其中,多域長(zhǎng)尾學(xué)習(xí)(Multi-Domain Long-Tailed Recognition,MDLT)的首個(gè)目標(biāo),是模型能夠在每一個(gè) domain 的每一個(gè) class 上,都有較好的 performance。而更一進(jìn)步,因?yàn)閺亩鄠€(gè)不同的 domain 學(xué)習(xí),我們希望模型也能夠泛化到 unseen domain,即 (Imbalanced) Domain Generalization,不平衡域泛化。我們首先提出了 domain-class transferability graph,用來(lái)刻畫(huà)不同 <domain, class>對(duì) 之間的可轉(zhuǎn)移性(相似程度)。我們發(fā)現(xiàn),基于這種定義的 transferability,直接決定了模型在 MDLT 任務(wù)上的表現(xiàn)。在此基礎(chǔ)上,基于理論分析,我們提出了 BoDA,一個(gè)理論上能夠 upper-bound 住 transferability 統(tǒng)計(jì)量的損失函數(shù),來(lái)提升模型在 MDLT 問(wèn)題上的性能。我們基于流行的多域數(shù)據(jù)集,構(gòu)建了五個(gè)新的 benchmark MDLT 數(shù)據(jù)集,并實(shí)現(xiàn)和對(duì)比了約 20種 涵蓋 DA,DG,imbalance 等不同的算法,發(fā)現(xiàn) BoDA 能夠穩(wěn)定提升 MDLT 的性能。此外,更有意思的是,我們發(fā)現(xiàn)目前流行的 域泛化(domain generalization,DG)問(wèn)題的數(shù)據(jù)集本質(zhì)上也是不平衡的,這種不平衡貫穿于 (1) 同一個(gè) domain 內(nèi)部的標(biāo)簽不平衡;(2)不同 domain 之間的不平衡標(biāo)簽分布的不一致。這證實(shí)了數(shù)據(jù)不平衡是 DG 中的一個(gè)內(nèi)在問(wèn)題, 但被過(guò)去的工作所忽視。神奇的是,我們發(fā)現(xiàn)當(dāng)和 DG 算法結(jié)合到一起,BoDA 能穩(wěn)定提升 DG 的表現(xiàn),這也揭示了標(biāo)簽不平衡會(huì)影響 out-of-distribution generalization,而實(shí)用魯棒的 DG 算法設(shè)計(jì)也需要整合標(biāo)簽不平衡的重要性。

1. 研究背景與動(dòng)機(jī)

現(xiàn)實(shí)世界的數(shù)據(jù)經(jīng)常表現(xiàn)出標(biāo)簽不平衡 — 現(xiàn)實(shí)數(shù)據(jù)通常不會(huì)是每個(gè)類(lèi)別都具有理想的均勻分布,而是本質(zhì)上會(huì)呈現(xiàn)長(zhǎng)尾分布,其中某些類(lèi)別的觀測(cè)數(shù)據(jù)量明顯較少。為了應(yīng)對(duì)這種現(xiàn)象,許多解決數(shù)據(jù)不平衡的方法被陸續(xù)提出;完整的現(xiàn)有不平衡學(xué)習(xí)方法調(diào)研歡迎查看:分類(lèi)機(jī)器學(xué)習(xí)中,某一標(biāo)簽占比太大(標(biāo)簽稀疏),如何學(xué)習(xí)?https://www.zhihu.com/question/372186043/answer/1501948720但是,現(xiàn)有的從不平衡數(shù)據(jù)中學(xué)習(xí)的解決方案,主要考慮的是 single domain 的情況,也就是說(shuō)所有樣本來(lái)自于同樣的 data distribution。然而,真實(shí)情況下,針對(duì)同一項(xiàng)任務(wù)的數(shù)據(jù)可以來(lái)自不同的域(domain)。例如下圖所示,Terra Incognita[1] 是一個(gè)實(shí)際采集的野生動(dòng)物識(shí)別+分類(lèi)的數(shù)據(jù)集。左邊子圖顯示的是在不同位置建立的 camera trap,以及拍到的野生動(dòng)物樣例;而右圖則是(一部分)不同 camera location 拿到的具體數(shù)據(jù)分布以及其拍攝效果。我們可以明顯的看出,即使是同一個(gè) wildlife 分類(lèi)任務(wù),不同 camera 的參數(shù)、拍攝背景、光照強(qiáng)度等也完全不同,即不同 camera trap 之間存在 domain gap。而由于某些動(dòng)物只會(huì)出現(xiàn)在特定位置,這導(dǎo)致了一個(gè) camera(domain)的數(shù)據(jù)是不平衡的,甚至沒(méi)有某一些類(lèi)別的數(shù)據(jù)(例如 location 100 幾乎沒(méi)有類(lèi)別0和1的數(shù)據(jù))。但由于不同 camera 拍到的 label distribution 往往截然不同,這也暗示了其他 domain 很可能在這些類(lèi)別有許多樣本 — 如 location 46 就有較多的類(lèi)別1 的數(shù)據(jù)。這說(shuō)明了我們可以利用多域數(shù)據(jù)來(lái)解決在每個(gè)域內(nèi)固有的數(shù)據(jù)不平衡問(wèn)題圖片Terra Incognita數(shù)據(jù)集樣例。同一個(gè)wildlife分類(lèi)任務(wù)中,不同相機(jī)的參數(shù)、拍攝背景、光照強(qiáng)度等也完全不同;并且,同一個(gè)相機(jī)拿到的數(shù)據(jù)也是類(lèi)別極度不平衡的;不僅如此,不同相機(jī)拍到的標(biāo)簽分布也截然不同,往往是非常mismatch的。但這也說(shuō)明我們可以利用多域數(shù)據(jù)來(lái)解決每個(gè)域內(nèi)固有的數(shù)據(jù)不平衡。同樣,在其他實(shí)際應(yīng)用中也會(huì)發(fā)生類(lèi)似的情況。例如,在視覺(jué)識(shí)別問(wèn)題中,來(lái)自“照片”圖像的少數(shù)類(lèi)可以用來(lái)自“草圖”圖像的潛在豐富樣本來(lái)補(bǔ)充。同樣,在自動(dòng)駕駛中,“現(xiàn)實(shí)”生活中的少數(shù)事故類(lèi)別可以通過(guò)“模擬”中產(chǎn)生的事故來(lái)豐富。此外,在醫(yī)學(xué)診斷中,來(lái)自不同人群的數(shù)據(jù)可以相互增強(qiáng),例如其中一個(gè)機(jī)構(gòu)的少數(shù)樣本可以與其他機(jī)構(gòu)的可能存在的多數(shù)實(shí)例相結(jié)合。在以上這些例子中,不同的數(shù)據(jù)類(lèi)型可以充當(dāng)不同的域,而這樣的多域數(shù)據(jù)也可以被有效的利用來(lái)解決數(shù)據(jù)不平衡問(wèn)題。因此,在這項(xiàng)工作中,我們定義并研究多域長(zhǎng)尾分布學(xué)習(xí),Multi-Domain Long-Tailed Recognition(MDLT),即從來(lái)自多個(gè)不同域的不平衡數(shù)據(jù)中學(xué)習(xí)。具體來(lái)說(shuō),給定具有多個(gè)域的目標(biāo)數(shù)據(jù)集,MDLT 旨在從來(lái)自多域的不平衡數(shù)據(jù)中學(xué)習(xí),解決每個(gè)域內(nèi)的標(biāo)簽不平衡、不同域之前的不同標(biāo)簽分布,并且最終模型能夠泛化到所有域所有類(lèi)別上。對(duì)于 MDLT 我們考慮用一個(gè)在每個(gè)域的每個(gè)類(lèi)別上分布是平衡的測(cè)試集來(lái)測(cè)試模型的泛化能力,這樣能夠?yàn)?MDLT 提供非常全面并且沒(méi)有偏差的評(píng)估。這種 setting 也是對(duì)單域長(zhǎng)尾識(shí)別問(wèn)題的自然的推廣,與其 setting 保持一致。

圖片

多域長(zhǎng)尾分布學(xué)習(xí),Multi-Domain Long-Tailed Recognition(MDLT),即從來(lái)自多個(gè)不同域的不平衡數(shù)據(jù)中學(xué)習(xí),解決每個(gè)域內(nèi)的標(biāo)簽不平衡、不同域之前的不同標(biāo)簽分布,并泛化到所有域的所有類(lèi)別上。

2. 多域長(zhǎng)尾學(xué)習(xí)的難點(diǎn)與挑戰(zhàn)

需要注意到的是,相比于單域的長(zhǎng)尾識(shí)別問(wèn)題,MDLT 帶來(lái)了以下全新的挑戰(zhàn)。(一)首先,每個(gè)域的標(biāo)簽分布都可能與其他域不同(label distribution shift across domains)。例如,在上一個(gè)gif圖中,“照片” 和 “卡通” 域都表現(xiàn)出不平衡的標(biāo)簽分布;然而,“卡通” 中的 “馬” 類(lèi)比 “照片” 中的樣本多得多。因此,除了域內(nèi)數(shù)據(jù)不平衡之外,這還帶來(lái)了跨域標(biāo)簽分布不同的挑戰(zhàn)(二)此外,多域數(shù)據(jù)必然會(huì)涉及到域之間存在偏差(domain shift)。簡(jiǎn)單地將來(lái)自不同域的數(shù)據(jù)視為一個(gè)整體并應(yīng)用傳統(tǒng)的數(shù)據(jù)不平衡方法不太可能產(chǎn)生最佳結(jié)果,因?yàn)橛蛑g的 gap 可以任意大。例如在第一張圖中顯示的 wildlife camera traps,不同camera的參數(shù)、拍攝背景等往往差距很大,而模型設(shè)計(jì)上也需要考慮到這一點(diǎn)。(三)最后,與單域不同,在多域長(zhǎng)尾學(xué)習(xí)中,某些域的某些類(lèi)別可能就根本沒(méi)有數(shù)據(jù)。因此,MDLT 自然地包含了 域內(nèi) 和 跨域 的零樣本泛化(zero-shot generalization within and across domains) — 即(1)泛化到域內(nèi)缺失類(lèi)(gif圖中 “草圖” 域的右側(cè)部分);以及(2)完全沒(méi)有訓(xùn)練數(shù)據(jù)的新域,也通常稱(chēng)為域泛化(Domain Generalization,DG)。總結(jié)上述的問(wèn)題,我們可以看到MDLT相比與傳統(tǒng)的單域不平衡分類(lèi)具有全新的難點(diǎn)與挑戰(zhàn)。那么,我們應(yīng)該如何進(jìn)行多域長(zhǎng)尾學(xué)習(xí)呢?在接下來(lái)的兩節(jié),我們將從整體建模、motivating examples、觀察到的現(xiàn)象、理論推導(dǎo),到最終損失函數(shù)的設(shè)計(jì),來(lái)一步一步分析這個(gè)問(wèn)題,并最終提升模型在MDLT任務(wù)上的表現(xiàn)。

3. Domain-Class Transferability Graph(域-類(lèi)對(duì)可轉(zhuǎn)移性圖)

這里我們首先提出了一系列定義,來(lái)對(duì) MDLT 這個(gè)問(wèn)題建模。在單域長(zhǎng)尾識(shí)別問(wèn)題中,我們通常考慮的 “最小單位” 是 一個(gè)類(lèi)別(class),也即按照樣本數(shù)量不同分成 majority classes 和 minority classes。然而當(dāng)拓展到多域情況,我們?cè)撊绾味x這個(gè) “最小單位”,從而能同時(shí)考慮到 domain shift 和 class imbalance 呢?我們提出,在 MDLT 下,這個(gè)基本單元自然而然地變成了一個(gè) “域-類(lèi)對(duì)”(domain-class pair)。那么當(dāng)我們從 “域類(lèi)對(duì)” 下手,我們則可以在 embedding space 上,通過(guò)定義不同域類(lèi)對(duì)之間的距離,來(lái)定義其之間的可轉(zhuǎn)移性(相似程度):圖片直觀地說(shuō),兩個(gè)域類(lèi)對(duì)之間的可遷移性是它們特征之間的平均距離,表征它們?cè)谔卣骺臻g中的接近程度。距離函數(shù) d 默認(rèn)設(shè)置為 Euclidean distance(一階統(tǒng)計(jì)量),但也可以選用其他距離來(lái)度量高階統(tǒng)計(jì)量(例如用 Mahalanobis distance 也用到了 covariance)。那么自然而然地,基于 transferability 我們可以定義 transferability graph(可轉(zhuǎn)移性圖):圖片在 Transferability graph 里,每一個(gè) node 是一個(gè) 域類(lèi)對(duì),而每一條邊則是兩個(gè)域類(lèi)對(duì)之間的 transferability。通過(guò)這種定義,我們可以直觀地將 transferability graph 可視化到一個(gè)二維平面。圖片可轉(zhuǎn)移性圖的總體框架。(a) 為所有域類(lèi)對(duì)計(jì)算分布統(tǒng)計(jì)量,由此我們生成一個(gè)完整的可轉(zhuǎn)移性矩陣。(b) 我們利用 MDS 將可轉(zhuǎn)移性圖投影到二維空間中進(jìn)行可視化。(c) 我們定義 (α, β, γ) 可轉(zhuǎn)移性統(tǒng)計(jì)量以進(jìn)一步描述整個(gè)可轉(zhuǎn)移性圖。具體而言,由上圖 (a)(b) 所示,對(duì)于每一個(gè)域類(lèi)對(duì),我們可以計(jì)算出屬于這個(gè)域類(lèi)對(duì)的所有數(shù)據(jù)的特征統(tǒng)計(jì)量(mean,covariance等)。那么對(duì)于不同域類(lèi)對(duì),我們進(jìn)一步計(jì)算兩兩之間的 transferability,由此我們生成一個(gè)完整的可轉(zhuǎn)移性圖,由矩陣形式表示(圖a)。之后我們可以使用多維縮放(MDS)[2] 在2D平面上可視化這種相似性以及其可轉(zhuǎn)移性圖(圖b)。在圖b中,我們可以看到不同domain用不同顏色來(lái)標(biāo)記,每一個(gè)點(diǎn)代表一個(gè)域類(lèi)對(duì),其大小代表所含數(shù)據(jù)量多少,數(shù)字則代表具體類(lèi)別;而他們之間的距離,則可以看作 transferability。顯而易見(jiàn),我們希望相同的數(shù)字(即相同類(lèi)別)的域類(lèi)對(duì)更接近,而不同類(lèi)別的域類(lèi)對(duì)互相遠(yuǎn)離;而這種關(guān)系,能夠更加被抽象化成三種可轉(zhuǎn)移性統(tǒng)計(jì)量:不同domain相同class( α ),相同domain不同class( β ),以及不同domain不同class( γ ):圖片那么到此為止,我們?yōu)?MDLT 進(jìn)行了建模和數(shù)學(xué)形式上的定義。接下來(lái)我們將進(jìn)一步探索 transferability 和 最終MDLT performance的關(guān)系。

4. 什么是多域長(zhǎng)尾學(xué)習(xí)上好的特征?4.1. 發(fā)現(xiàn)1:跨域不匹配的標(biāo)簽分布會(huì)阻礙模型學(xué)到可轉(zhuǎn)移的特征

我們首先發(fā)現(xiàn):由于不平衡的存在,不同域上不同的標(biāo)簽分布阻礙了模型學(xué)到可轉(zhuǎn)移的特征。Motivating Example:我們首先構(gòu)建了一個(gè)小型 MDLT 數(shù)據(jù)集,Digits-MLT,是將兩個(gè)數(shù)字分類(lèi)數(shù)據(jù)集合并到一起:(1) MNIST-M[3],一個(gè)彩色背景的MNIST手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集,以及 (2) SVHN[4],一個(gè)街頭拍攝的數(shù)字?jǐn)?shù)據(jù)集。這兩個(gè)數(shù)據(jù)集的任務(wù)是一致的,也即0~9的十個(gè)數(shù)字分類(lèi)問(wèn)題。我們手動(dòng)改變每個(gè)域類(lèi)對(duì)的樣本數(shù)量以模擬不同的標(biāo)簽分布,并針對(duì)每種情況使用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (ERM) 訓(xùn)練一個(gè)普通的 ResNet-18。我們保持所有測(cè)試集是平衡且相同的。圖片改變 Digits-MLT 的標(biāo)簽比例時(shí)可轉(zhuǎn)移性圖的演變模式。(a) 兩個(gè)域的標(biāo)簽分布是平衡且相同的。(b) 兩個(gè)域的標(biāo)簽分布不平衡但相同。(c) 兩個(gè)域的標(biāo)簽分布不平衡且發(fā)散。上圖的結(jié)果揭示了有趣的觀察結(jié)果。當(dāng)每個(gè)域的標(biāo)簽分布平衡且跨域相同時(shí),盡管存在域差距,但并不妨礙模型學(xué)習(xí)高精度(90.5%)的判別特征,如圖a 所示。如果標(biāo)簽分布不平衡但保持相同(圖b),ERM 仍然能夠?qū)R兩個(gè)域中的相似類(lèi),其中多數(shù)類(lèi)(例如類(lèi)9)在可轉(zhuǎn)移性方面要好于少數(shù)類(lèi)(例如類(lèi)0)。相反,當(dāng)標(biāo)簽在域之間既不平衡又不匹配時(shí),如圖c 所示,學(xué)習(xí)到的特征不再是可遷移的,這也導(dǎo)致了學(xué)到的特征在域之間存在明顯的gap,以及最差的準(zhǔn)確率。這是因?yàn)榭缬虻牟煌瑯?biāo)簽分布會(huì)產(chǎn)生shortcut;模型可以簡(jiǎn)單地通過(guò)分離兩個(gè)域來(lái)最小化分類(lèi)損失。這種現(xiàn)象表明,可轉(zhuǎn)移的特征是我們所需要的。上面的結(jié)果表明,模型需要學(xué)到跨域類(lèi)對(duì)的可轉(zhuǎn)移的特征,尤其是在數(shù)據(jù)不平衡時(shí)。特別是,同一類(lèi)跨域之間的transferability 應(yīng)大于域內(nèi)或跨域的不同類(lèi)之間的transferability — 而這則可以通過(guò) ( αβγ ) 可轉(zhuǎn)移性統(tǒng)計(jì)量來(lái)量化。

4.2. 發(fā)現(xiàn)2:轉(zhuǎn)移統(tǒng)計(jì)量刻畫(huà)了模型的泛化能力

承接上文,我們說(shuō)到模型需要可轉(zhuǎn)移的特征,而可轉(zhuǎn)移性統(tǒng)計(jì)量則可以幫助量化判斷模型的好壞。那么可轉(zhuǎn)移性統(tǒng)計(jì)量和 模型performance 的具體關(guān)系是什么呢?Motivating Example:同樣,我們使用具有不同標(biāo)簽分布的 Digits-MLT。我們考慮三種不平衡類(lèi)型來(lái)組成不同的標(biāo)簽配置:(1)統(tǒng)一(即平衡標(biāo)簽),(2)前向長(zhǎng)尾,其中標(biāo)簽在類(lèi)別ID上表現(xiàn)出長(zhǎng)尾分布,以及(3)后向長(zhǎng)尾,其中標(biāo)簽相對(duì)于類(lèi)別ID 是反向長(zhǎng)尾的。對(duì)于每種配置,我們訓(xùn)練了 20 個(gè)具有不同超參數(shù)的 ERM 模型。然后我們計(jì)算每個(gè)模型的 ( αβγ ) 統(tǒng)計(jì)量,并繪制其分類(lèi)準(zhǔn)確度與 βγα 的關(guān)系。圖片(β + γ) - α 統(tǒng)計(jì)量與 Digits-MLT 不同標(biāo)簽配置的測(cè)試準(zhǔn)確度之間的對(duì)應(yīng)關(guān)系。每個(gè)子圖代表兩個(gè)域的特定標(biāo)簽分布(例如,子圖a對(duì)域1 使用“Uniform”,對(duì)域2 使用“Uniform”)。圖中每個(gè)點(diǎn)對(duì)應(yīng)于使用不同超參數(shù)使用 ERM 訓(xùn)練的模型。上圖揭示了以下發(fā)現(xiàn):

  1. ( αβγ ) 統(tǒng)計(jì)量表征了模型在 MDLT 中的性能。特別是, βγα 統(tǒng)計(jì)量在整個(gè)范圍上和每個(gè)標(biāo)簽配置的測(cè)試性能均顯示出非常強(qiáng)的相關(guān)性
  2. 數(shù)據(jù)不平衡會(huì)增加學(xué)到不可遷移特征的風(fēng)險(xiǎn)。當(dāng)跨域的標(biāo)簽分布一致且平衡時(shí)(圖a),模型對(duì)變化的參數(shù)具有魯棒性,在右上區(qū)域聚集。然而,隨著標(biāo)簽變得不平衡(圖b、c)和進(jìn)一步發(fā)散(圖d、e),模型學(xué)習(xí)不可遷移特征(即較低的 βγα)的機(jī)會(huì)增加,導(dǎo)致性能大幅下降。
4.3.BoDA: 一種能 Bound 轉(zhuǎn)移統(tǒng)計(jì)量的損失函數(shù)

我們利用上述發(fā)現(xiàn)設(shè)計(jì)了一個(gè)特別適合 MDLT 的新?lián)p失函數(shù)。我們將首先介紹損失函數(shù),然后理論證明它最小化了 ( αβγ ) 統(tǒng)計(jì)量的上限。我們從一個(gè)受度量學(xué)習(xí)目標(biāo)啟發(fā)的簡(jiǎn)單損失開(kāi)始,并稱(chēng)這種損失為  ,因?yàn)樗荚趯?shí)現(xiàn)域類(lèi)分布的對(duì)齊,即跨域?qū)R同一類(lèi)的特征:圖片直觀來(lái)看,  解決了標(biāo)簽分布跨域不匹配的問(wèn)題,因?yàn)楣蚕硗活?lèi)的域類(lèi)對(duì)將被拉得更近,反之亦然。它還與 ( αβγ ) 統(tǒng)計(jì)有關(guān),因?yàn)榉肿颖硎菊缬驅(qū)?( α ),分母表示負(fù)跨域?qū)?( βγ)。但是,它并沒(méi)有解決標(biāo)簽不平衡問(wèn)題。我們注意到( αβγ )是以平衡的方式定義的,與每個(gè)域類(lèi)對(duì)中的樣本數(shù)無(wú)關(guān)。然而,給定一個(gè)不平衡的數(shù)據(jù)集,大多數(shù)樣本將來(lái)自多數(shù)域類(lèi)對(duì),這將主導(dǎo)  并導(dǎo)致少數(shù)域類(lèi)對(duì)被忽略。BoDA loss:為了應(yīng)對(duì)上述問(wèn)題,我們進(jìn)一步修改公式1,得到 Balanced Domain-Class Distribution Alignment (BoDA) loss —圖片可以發(fā)現(xiàn),BoDA 將原始的距離函數(shù) d 縮放了  的因子,其中  是域類(lèi)對(duì) 的樣本數(shù)量。即,BoDA 通過(guò)引入平衡的距離度量  來(lái)抵消不平衡域類(lèi)對(duì)的影響。而對(duì)于  ,我們證明了以下定理:圖片具體的證明細(xì)節(jié)請(qǐng)?jiān)斠?jiàn)我們文章。定理1有如下的有趣的含義:

  1. 是 ( αβγ ) 統(tǒng)計(jì)量的一種理想的形式的upper-bound。通過(guò)最小化 ,我們確保了低 α (吸引相同的類(lèi))和高 β、γ (分離不同的類(lèi)),這是 MDLT 中泛化的必要條件,自然轉(zhuǎn)化為更好的性能。
  2. 統(tǒng)計(jì)量中的常數(shù)因子對(duì)應(yīng)于每個(gè)部分對(duì)可遷移性圖的貢獻(xiàn)程度。我們注意到在 里,目標(biāo)與 αβγ 成正比。根據(jù)定義3,我們注意到  總結(jié)了同一類(lèi)的數(shù)據(jù)相似性,而 $ \frac1}{D|β + \fracD|?1D|\gamma使用 βγ$ 的加權(quán)平均值總結(jié)了不同類(lèi)的數(shù)據(jù)相似性,其中它們的權(quán)重與相關(guān)域的數(shù)量成正比(即, β 為 1, γ 為  )。
4.4. 校準(zhǔn)數(shù)據(jù)不平衡可以得到更好的轉(zhuǎn)移性

BoDA 的工作原理是鼓勵(lì)跨域的相似類(lèi)的特征遷移,即如果 (d, c) 和 (d' , c) 是不同域中的同一類(lèi),那么我們希望將它們的特征是相互遷移的。但是,由于數(shù)據(jù)不平衡,少數(shù)域類(lèi)對(duì)的統(tǒng)計(jì)量估計(jì)值自然會(huì)更差,而這種情況下迫使其他對(duì)轉(zhuǎn)移到它們會(huì)損害模型的學(xué)習(xí)過(guò)程。因此,當(dāng)在特征空間中使兩個(gè)域類(lèi)對(duì)更接近時(shí),我們希望少數(shù)域類(lèi)對(duì)轉(zhuǎn)移到多數(shù),而反過(guò)來(lái)則不是。這里細(xì)節(jié)較多,就直接跳過(guò)了,我們的 paper 中給出了詳細(xì)的 motivating example 和 interpretation。結(jié)論是,可以通過(guò)在 BoDA的基礎(chǔ)上加上一個(gè) Calibration 項(xiàng),由兩個(gè)域類(lèi)對(duì)的相對(duì)樣本數(shù)量來(lái)實(shí)現(xiàn)轉(zhuǎn)移程度的控制:圖片

5. 基準(zhǔn)MDLT數(shù)據(jù)集及實(shí)驗(yàn)分析

基準(zhǔn)MDLT數(shù)據(jù)集:終于來(lái)到了激動(dòng)人心的實(shí)驗(yàn)部分 ;) 為了方便對(duì)不平衡算法進(jìn)行標(biāo)準(zhǔn)的測(cè)試,以及方便未來(lái)的research工作,我們?cè)诂F(xiàn)有的multi-domain數(shù)據(jù)集基礎(chǔ)上,建立了五個(gè)MDLT的基準(zhǔn)數(shù)據(jù)集。具體來(lái)說(shuō),我們使用的是域泛化的基準(zhǔn)數(shù)據(jù)集[5],并將它們用于 MDLT 評(píng)估。為此,我們?yōu)槊總€(gè)數(shù)據(jù)集創(chuàng)建兩個(gè)平衡的數(shù)據(jù)集,一個(gè)用于驗(yàn)證,另一個(gè)用于測(cè)試,其余的用于訓(xùn)練。驗(yàn)證和測(cè)試數(shù)據(jù)集的大小分別約為原始數(shù)據(jù)的 5% 和 10%。這些數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)分布如下圖所示:圖片此外,我們選取了近20種算法,涵蓋了 multi-domain learning,distributionally robust optimization,invariant feature learning,meta-learning,imbalanced learning 等各種類(lèi)別作為基線(xiàn)方法比較,并對(duì)每種算法優(yōu)化了超參數(shù)。這樣的過(guò)程確保了比較是最佳與最佳的(best-vs-best),并且超參數(shù)針對(duì)所有算法進(jìn)行了優(yōu)化。在評(píng)估過(guò)程中,除了跨域的平均準(zhǔn)確率外,我們還報(bào)告了所有域的最差準(zhǔn)確率,并將所有域類(lèi)對(duì)進(jìn)一步劃分為幾個(gè)不相交的子集:稱(chēng)為many-shot(訓(xùn)練樣本超過(guò) 100 個(gè)的),medium-shot(20~100 個(gè)訓(xùn)練樣本的),few-shot(訓(xùn)練樣本少于 20 個(gè)的),還有zero-shot(沒(méi)有訓(xùn)練數(shù)據(jù)的),并報(bào)告這些子集的結(jié)果。具體詳見(jiàn)我們的文章。實(shí)驗(yàn):由于實(shí)驗(yàn)較多,這里僅展示在所有數(shù)據(jù)集上的合并結(jié)果,所有的結(jié)果請(qǐng)?jiān)斠?jiàn)論文。如下圖所示,BoDA(及其變種)在所有數(shù)據(jù)集上始終保持最佳平均準(zhǔn)確度。在大多數(shù)情況下,它還可以達(dá)到最佳的最壞情況精度。此外,在某些數(shù)據(jù)集(如OfficeHome-MLT)上,MDL 方法表現(xiàn)更好(如CORAL),而在其他數(shù)據(jù)集(如TerraInc-MLT)上,不平衡方法獲得更高的收益(如CRT);盡管如此,無(wú)論數(shù)據(jù)集如何,BoDA 都優(yōu)于所有方法,突出了其對(duì) MDLT 任務(wù)的有效性。最后,與 ERM 相比,BoDA 略微提高了平均和many-shot的性能,同時(shí)大幅提升了medium-shot、few-shot和zero-shot的性能。圖片實(shí)驗(yàn)分析之 BoDA 學(xué)到了怎樣的可轉(zhuǎn)移性圖:我們進(jìn)一步來(lái)對(duì)提出的方法做一些進(jìn)一步的分析。我們繪制了通過(guò)BoDA學(xué)到的可轉(zhuǎn)移性圖,并在不同跨域標(biāo)簽分布下與 ERM 進(jìn)性對(duì)比。從下圖可以發(fā)現(xiàn),BoDA 學(xué)習(xí)到了更加平衡的特征空間,將不同的類(lèi)別分開(kāi)。當(dāng)標(biāo)簽分布是平衡且一致時(shí),ERM 和 BoDA 都能學(xué)到好的特征;而當(dāng)標(biāo)簽開(kāi)始不平衡(b,c),甚至跨域不匹配(d,e)時(shí),ERM 的可轉(zhuǎn)移性圖出現(xiàn)了明顯的 domain gap;與之對(duì)應(yīng),BoDA 則能一直學(xué)到平衡且對(duì)齊的特征空間。更好的學(xué)習(xí)特征便轉(zhuǎn)化為更好的準(zhǔn)確度(9.5% 的絕對(duì)準(zhǔn)確度增益)。圖片

6. MDLT 更進(jìn)一步:不平衡域泛化問(wèn)題

域泛化(DG)是指從多個(gè)域中學(xué)習(xí)并泛化到未見(jiàn)過(guò)的域。由于學(xué)習(xí)域的標(biāo)簽分布很可能不同,甚至可能在每個(gè)域內(nèi)都存在類(lèi)不平衡,因此我們研究解決跨域數(shù)據(jù)不平衡是否可以進(jìn)一步增強(qiáng) DG 的性能?;叵胛覀?yōu)?MDLT 建立的所有數(shù)據(jù)集都是 DG 的基準(zhǔn)數(shù)據(jù)集,這證實(shí)了數(shù)據(jù)不平衡是 DG 的一個(gè)內(nèi)在問(wèn)題,但過(guò)去的工作卻忽略了這一點(diǎn)。圖片我們研究 BoDA 是否可以提高 DG 的性能。為了測(cè)試 BoDA,我們遵循標(biāo)準(zhǔn)的 DG 評(píng)估協(xié)議 [5]。通過(guò)上表,我們發(fā)現(xiàn)僅 BoDA 就可以在五個(gè)數(shù)據(jù)集中的四個(gè)上提升當(dāng)前的結(jié)果,并實(shí)現(xiàn)顯著的平均性能提升。此外,結(jié)合當(dāng)前的SOTA,BoDA 進(jìn)一步將所有數(shù)據(jù)集的結(jié)果顯著提升,這表明標(biāo)簽不平衡與現(xiàn)有的 DG 特定算法是正交的。最后,與 MDLT 類(lèi)似,增益取決于數(shù)據(jù)集內(nèi)不平衡的嚴(yán)重程度——例如,TerraInc 表現(xiàn)出跨域最嚴(yán)重的標(biāo)簽不平衡,而 BoDA 在其上獲得最高增益。這些有趣的結(jié)果揭示了標(biāo)簽不平衡如何影響域泛化,并強(qiáng)調(diào)了整合標(biāo)簽不平衡對(duì)于實(shí)際 DG 算法設(shè)計(jì)的重要性。

7. 結(jié)語(yǔ)

最后總結(jié)一下本文,我們提出了一個(gè)新的任務(wù),稱(chēng)為多域長(zhǎng)尾分布學(xué)習(xí)(MDLT),同時(shí)我們系統(tǒng)性地研究了MDLT,并提出了有理論保障的新?lián)p失函數(shù) BoDA,以解決多域的學(xué)習(xí)不平衡數(shù)據(jù)的問(wèn)題,最后我們建立了五個(gè)新的benchmark來(lái)方便未來(lái)在多域不平衡數(shù)據(jù)上的研究。本文有很直觀的問(wèn)題分析與解釋?zhuān)碚撟C明,以及用非常簡(jiǎn)潔并且通用的框架去提升多域下的不平衡學(xué)習(xí)任務(wù)。此外,我們發(fā)現(xiàn)標(biāo)簽不平衡會(huì)影響 out-of-distribution generalization,而實(shí)用魯棒的DG算法設(shè)計(jì)也需要整合標(biāo)簽不平衡的重要性。

參考
  1. Recognition in Terra Incognita. ECCV, 2018.
  2. Multidimensional scaling. Measurement, judgment and decision making, pages 179–250, 1998.
  3. Domain-adversarial training of neural networks. Journal of machine learning research, 17(1):2096–2030, 2016.
  4. Reading digits in natural images with unsupervised feature learning. NIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2011.
  5. In search of lost domain generalization. In ICLR, 2021.
  6. Delving into Deep Imbalanced Regression. ICML, 2021.


本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉