博客專欄

EEPW首頁 > 博客 > Curriculum Labeling:重新審視半監(jiān)督學(xué)習(xí)的偽標(biāo)簽

Curriculum Labeling:重新審視半監(jiān)督學(xué)習(xí)的偽標(biāo)簽

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2022-07-23 來源:工程師 發(fā)布文章

來源:DeepHub IMBA

Curriculum Labeling (CL),在每個(gè)自訓(xùn)練周期之前重新啟動(dòng)模型參數(shù),優(yōu)于偽標(biāo)簽 (PL)。


Pseudo-Labeling (PL) 通過將偽標(biāo)簽應(yīng)用于未標(biāo)記集中的樣本以在自訓(xùn)練周期中進(jìn)行模型訓(xùn)練。Curriculum Labeling (CL)中,應(yīng)用類似課程學(xué)習(xí)的原則,通過在每個(gè)自學(xué)習(xí)周期之前重新啟動(dòng)模型參數(shù)來避免概念漂移。該論文發(fā)布在2021 AAAI 。
圖片


偽標(biāo)簽 (PL) 簡(jiǎn)要回顧


圖片
偽標(biāo)簽可以認(rèn)為是未標(biāo)記數(shù)據(jù)的目標(biāo)類,就好像它們是真正的標(biāo)簽一樣。偽標(biāo)簽是通過選取網(wǎng)絡(luò)為每個(gè)未標(biāo)記樣本預(yù)測(cè)的最大預(yù)測(cè)概率的類來實(shí)現(xiàn)的。偽標(biāo)簽使用帶有 Dropout 的微調(diào)階段,可以將預(yù)訓(xùn)練的網(wǎng)絡(luò)以有監(jiān)督的方式同時(shí)使用標(biāo)記和未標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練。


Curriculum Labeling (CL)


圖片
模型在標(biāo)記樣本上進(jìn)行訓(xùn)練。然后該模型用于預(yù)測(cè)和分配未標(biāo)記樣本的偽標(biāo)簽。預(yù)測(cè)概率分?jǐn)?shù)的分布用于選擇偽標(biāo)記樣本的子集。使用標(biāo)記和偽標(biāo)記樣本重新訓(xùn)練新模型。通過使用這個(gè)新模型重新標(biāo)記未標(biāo)記的樣本來重復(fù)這個(gè)過程。當(dāng)訓(xùn)練期間使用數(shù)據(jù)集中的所有樣本時(shí),該過程停止。
圖片
具體來說,百分位分?jǐn)?shù)用于決定添加哪些樣本。上面的算法顯示了模型的完整流程,其中percentile (X, Tr)返回第r個(gè)百分位的值。r的值從0%到100%以20為單位遞增。當(dāng)偽標(biāo)記集包含整個(gè)訓(xùn)練數(shù)據(jù)樣本(r=100%)時(shí),重復(fù)過程終止。
數(shù)據(jù)由N個(gè)有標(biāo)記的樣例(Xi, Yi)和M個(gè)無標(biāo)記的樣例Xj組成。設(shè)H是一組假設(shè)H θ,其中H θ∈H,其中H θ∈H表示一個(gè)映射X到Y(jié)的函數(shù)。設(shè)Lθ(Xi)表示給定例子Xi的損失。為了選擇具有最低可能誤差的最佳預(yù)測(cè)器,公式可以用正則化經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)框架解釋。
下面,L(θ)定義為偽標(biāo)記正則化經(jīng)驗(yàn)損失:
圖片
上圖的cee為交叉熵 cross entropy。

實(shí)驗(yàn)結(jié)果


下圖為基于WideResNet-28在CIFAR-10和SVHN上的測(cè)試錯(cuò)誤率。
圖片
下圖為使用CNN-13在CIFAR-10和SVHN上的測(cè)試錯(cuò)誤率。
圖片
CL在CIFAR-10上出人意料地超過了之前基于偽標(biāo)記的方法和一致性正則化方法。CL的數(shù)據(jù)增強(qiáng)是以完全隨機(jī)的方式進(jìn)行的轉(zhuǎn)換,稱為隨機(jī)增強(qiáng)(RA)。在SVHN上,CL方法與以前所有依賴中高度數(shù)據(jù)增強(qiáng)的方法相比,具有競(jìng)爭(zhēng)性的測(cè)試誤差。
圖片
測(cè)試SSL算法的一種常見做法是,使用每個(gè)類的50、100和200個(gè)樣本來改變標(biāo)記數(shù)據(jù)的大小。當(dāng)處理較小的標(biāo)簽集時(shí)CL也不會(huì)顯著降低。
圖片
在ImageNet上,CL以最先進(jìn)的技術(shù)取得了具有競(jìng)爭(zhēng)力的結(jié)果,得分非常接近目前的頂級(jí)表現(xiàn)方法。模型為 ResNet-50,使用已標(biāo)記/未標(biāo)記數(shù)據(jù)的10%/90%的訓(xùn)練分割。
對(duì)于標(biāo)記樣本分布外的真實(shí)評(píng)估結(jié)果如下:
圖片
在 Oliver NeurIPS’18 更現(xiàn)實(shí)的 SSL 設(shè)置中,未標(biāo)記數(shù)據(jù)可能與標(biāo)記數(shù)據(jù)不共享同一類集。該實(shí)驗(yàn)是通過綜合改變 CIFAR-10 上的類重疊來復(fù)制的,這里只選擇動(dòng)物類來執(zhí)行分類(鳥、貓、鹿、狗、青蛙、馬)。
CL 對(duì)分布外的類具有魯棒性,而以前方法的性能顯著下降。據(jù)推測(cè),所提出的自定進(jìn)度是CL中表現(xiàn)良好的關(guān)鍵,其中自適應(yīng)閾值方案可以幫助在訓(xùn)練期間過濾分布外的未標(biāo)記樣本。

消融研究


標(biāo)簽的有效性。
圖片
不同的數(shù)據(jù)增強(qiáng),如混淆和SWA,在應(yīng)用傳統(tǒng)的偽標(biāo)記時(shí),沒有進(jìn)度,也沒有特定的閾值(即0.0)。只有在對(duì)偽標(biāo)注進(jìn)行重?cái)?shù)據(jù)增強(qiáng)時(shí),該方法才能在不使用任何數(shù)據(jù)擴(kuò)充的情況下匹配所提出的進(jìn)度設(shè)計(jì)。
圖片
在偽標(biāo)記 (PL) 中使用的固定閾值,這些閾值用于包含偽標(biāo)記的未標(biāo)記數(shù)據(jù)。CL能夠產(chǎn)生比傳統(tǒng)的偽標(biāo)記方法,即使在應(yīng)用重?cái)?shù)據(jù)增強(qiáng)時(shí)使用固定閾值顯著的收益。
圖片
只有最有把握的樣本在 CL 中被重新標(biāo)記。置信閾值為 0.9 和 0.9995。使用精心挑選的閾值是次優(yōu)的。
重新初始化與微調(diào)的有效性結(jié)果如下:
圖片
重新初始化模型會(huì)產(chǎn)生至少 1% 的提升,并且不會(huì)給建議的自定進(jìn)度方法增加的開銷。與微調(diào)相反,重新初始化模型確實(shí)提高了準(zhǔn)確性,展示了一種替代且可能更簡(jiǎn)單的解決方案來緩解確認(rèn)偏差問題。
論文地址:https://arxiv.org/abs/2001.06001作者:Sik-Ho Tsang

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉