ECCV2022 | FPN錯位對齊,實現(xiàn)高效半監(jiān)督目標檢測 (PseCo)
來源丨h(huán)ttps://zhuanlan.zhihu.com/p/544346080編輯丨極市平臺
本文首先討論了把pseudo labeling和consistency training直接遷移到目標檢測中的不適配現(xiàn)象,然后再解釋如何通過FPN的錯位訓練實現(xiàn)高效半監(jiān)督目標檢測,并取得SOTA的表現(xiàn)。
論文鏈接:https://arxiv.org/abs/2203.16317代碼鏈接:https://github.com/ligang-cs/PseCo
Preliminary半監(jiān)督目標檢測是研究,在有一部分標注數(shù)據(jù)的前提下,如何利用大量的無標注數(shù)據(jù)來提升檢測器性能。廣泛采用的pipeline是Mean-Teacher,即,通過EMA來實時生成teacher model,然后,讓teacher model生成偽標簽,用于監(jiān)督student model的訓練。但是,Mean-Teacher的范式,很容易出現(xiàn)over-confidence的問題,student model很容易過擬合teacher model的預測。為了緩解over-confidende,F(xiàn)ixMatch提出了對teacher和student分別使用不同強度的數(shù)據(jù)增廣,具體地,對teacher的輸入采用弱數(shù)據(jù)增廣(flip, scale jitter等),保證偽標簽的質(zhì)量;而對student的輸入,采用強數(shù)據(jù)增廣(rotate, color jitter,一些幾何形變等),增加student的訓練難度,防止過擬合。
1. MotivationPseudo labeling和consistency training是半監(jiān)督學習里面的兩個關鍵技術,但是直接遷移到目標檢測上,會出現(xiàn)一些不適配的現(xiàn)象。我們詳細分析了一下,具體的不適配有哪些:
1.1 Pseudo Labelingpseudo labeling通過設置一個較高的score threshold,把Teacher model預測的置信度較高的檢測結(jié)果保留下來,作為偽標簽(pseudo boxes)。但是在目標檢測中,分類score和box的定位質(zhì)量往往沒有強相關,score較高的pseudo box可能定位并不準。所以,Pseudo box中難免存在一些定位不準的box框。那么,定位不準的pseudo box會給半監(jiān)督訓練帶來哪些影響呢?1. 會影響IoU-based label assignment;如下圖1,質(zhì)量很差的proposal會被錯誤地assign成正樣本,模糊正負樣本的分類邊界。2. 不準確的Pseudo Box不適合用來訓練bbox回歸的任務。為了緩解這兩個影響,我們分別設計了Prediction-guided Label Assignment (預測引導的標簽分配, PLA)和Positive-proposal Consistency Voting (正樣本一致性投****,PCV),來實現(xiàn)比較魯棒的帶噪偽標簽學習。其中,PLA根據(jù)Teacher prediction來分配正負樣本,減少了對IoU的依賴;PCV根據(jù)proposal的預測一致性,來反映pseudo box的定位質(zhì)量,抑制定位不準的pseudo box。圖1 coarse pseudo box (黃色框)會誤導label assignment
consistency training通過在student訓練過程中,加入一些擾動,讓模型的預測結(jié)果對擾動保持 魯棒,從而學到一些重要的不變性。尺度不變性(scale invariance)作為目標檢測最重要的幾個屬 性之一,一直收到廣泛的關注。但是以前的工作,僅僅采用random resize來學習尺度不變性,對 輸入圖像做比例為 的縮放,同時也會對ground truth做相應比例 的縮放,我們把這種一致性 叫作label-level consistency.除了這種label-level的尺度不變性外,其實目標檢測網(wǎng)絡還有 feature層面的尺度不變性。通俗的說就是,對于同一張image,我們把它放縮到兩種不同的scale (比如 scale , scale ),如果能讓它們的feature擁有一樣的shape,即 Feat scale 的tensor維 督。得益于FPN的金字塔結(jié)構(gòu),feature層面的對齊很容易實現(xiàn)。我們提出了一種Multi-view Scale-invariant Learning (多視角尺度不變性學習,MSL),同時從label- and feature-level consistency的角度,學習尺度不變性,實現(xiàn)了高效的半監(jiān)督學習。
2. Method圖2 PseCo的frameworkPseCo的framework如圖2所示。在unlabeled data上,我們對輸入圖像分別做不同的scale jitter,構(gòu)建出view 0和view 1,其中,view 0是teacher model的輸入,而view 1是student model的輸入,通過view 0 - view 1 pair的學習,label-level consistency被實現(xiàn),這也就是之前大家常用的random resize. 接著,我們對view 1做2倍下采樣,得到view 2。由于FPN的特征金字塔,view 1的P3-P7 features和view 2的P2-P6 features,可以實現(xiàn)完美的對齊。我們用相同的Pseudo Boxes來監(jiān)督view 1的P3-P7層和view 2的P2-P6層。這個可以理解成FPN的錯位訓練。至此,我們在一個網(wǎng)絡中,通過label-level and feature-level consistency,實現(xiàn)了更加全面的尺度不變性學習。關于兩種consistency的比較,可參考圖3.
圖3 label-level和feature-level consistency比較。feature level的對齊,可以通過移動FPN pyramid level來實現(xiàn)對于Pseudo labeling的改進,我們提出了PLA和PCV,分別從分類任務和回歸任務的角度,來實現(xiàn)魯棒帶噪標簽學習。PLA (prediction-guided label assignment)提出了一種label assignment的方式,比傳統(tǒng)的IoU-based策略,更適合應對帶噪的標簽。PLA對每個GT,先構(gòu)造了一個更大的candidate bag,包含了所有的、有潛力成為正樣本的proposals (or candidates),然后根據(jù)teacher model在這些candidates上的預測結(jié)果,來評判每個candidate的質(zhì)量,最后選取質(zhì)量最高的top-N個candidates作為正樣本。PLA減少了label assignment對IoU的依賴,避免了不準確的pseudo box對label assignment的消極影響。此外,PCV(positve-proposal consistency voting) 直接對Pseudo Box的定位精度做出了判斷,定位準確的Pseudo Box會被分配比較大的regression loss weight,反之,就分配小的reg loss weight. 細節(jié)上,因為在目標檢測中,1個GT往往會匹配多個positive proposals,我們發(fā)現(xiàn)這些positive proposals的回歸一致性能夠反映出對應的pseudo box的定位精度,更多細節(jié)請參考論文。
我們在partial labeled和full labeled settings下,都取得了SOTA的性能。此外,我們的訓練效率也非常高,如圖4所示,在5%和10%標簽比例下,我們都僅用了不到一半的訓練時長,就達到了Soft Teacher的精度。雖然我們增加了一個view 2,但是因為view 2的圖片分辨率非常小,增加的訓練開銷很小,每個iteration增加的的訓練時長不到20%.圖4 PseCo收斂速度
4. 碎碎念(1) unlabeled data上的strong augmentation,一方面可以使得模型學習到一些重要的不變性,另一方面,可以增加訓練難度,有效緩解over-confidence。如果不加強aug的話,訓練后期會出現(xiàn)一個現(xiàn)象:擬合pseudo label會擬合得越來越好,但是mAP就是不漲。本文提出的MSL,或者叫FPN錯位訓練,其實也是提供了一種強aug,讓student model同時處理兩種訓練模式,不容易過擬合:一種是高分辨率輸入,P3-P7訓練;另一種是低分辨率輸入,P2-P6訓練。其實,MAE的masked image也可以看做強aug,似乎可以融入到半監(jiān)督中。(2) 在實際使用中,unlabeled data更可能是out-of-distribution的,和labeled data不在同一個domain。如何從ood的unlabeled data中高效學習出有用的信息,是比較難的。比如,如果做人臉檢測,labele data用WiderFace,unlabeled data用MS COCO,可能這個設定下的半監(jiān)督學習就是無效的。甚至,會因為網(wǎng)絡更多地擬合unlabeled data的domain,導致掉點。(3) 現(xiàn)在Teacher model僅僅提供pseudo box給student model訓練,這種pseudo box是比較稀疏的監(jiān)督信息。在此基礎上,我們提出了Dense Teacher Guidance (https://arxiv.org/abs/2207.05536),研究如何從Teacher prediction中挖掘出更多的監(jiān)督信息。
本文僅做學術分享,如有侵權,請聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。