博客專欄

EEPW首頁 > 博客 > CVPR2121目標檢測 | 少見的知識蒸餾用于目標檢測

CVPR2121目標檢測 | 少見的知識蒸餾用于目標檢測

發(fā)布人:CV研究院 時間:2021-03-21 來源:工程師 發(fā)布文章

近年來,知識蒸餾已被證明是對模型壓縮的一種有效的解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。

1、簡介

然而,以往的蒸餾檢測方法對不同的檢測框架具有較弱的泛化性,并且嚴重依賴于GT,忽略了實例之間有價值的關(guān)系信息。因此,研究者提出了一種新的基于鑒別實例的檢測方法,而不考慮GT的正負區(qū)別,稱為通用的實例蒸餾(GID)。

新提出的方法包含了一個通用的實例選擇模塊(GISM),以充分利用基于特征、基于關(guān)系和基于響應的知識進行蒸餾。大量的結(jié)果表明,學生模型在各種檢測框架中取得了顯著的AP改進,甚至優(yōu)于教師。具體來說,ResNet-50的RetinaNet在COCO數(shù)據(jù)集上使用GID在mAP中達到39.1%,超過基線36.2%,甚至優(yōu)于基于ResNet-101的38.1%AP教師模型。

1.png

2、背景及動機

由Hinton等人【Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network, 2015】提出的知識蒸餾(KD)是解決上述問題的一種很有前途的方法。知識蒸餾是將大模型的知識傳遞給小模型,從而提高小模型的性能,達到模型壓縮的目的。目前,知識的典型形式可分為三類:反應型知識、特征型知識和關(guān)系型知識。然而,大多數(shù)蒸餾方法主要是針對多分類問題而設計的。 

直接將分類特定蒸餾方法遷移到檢測模型中的效果較差,因為檢測任務中正實例和負實例的比例極不平衡。 

一些為檢測任務設計的蒸餾框架處理了這個問題,并取得了令人印象深刻的結(jié)果,例如。Li【Quanquan Li, Shengying Jin, and Junjie Yan. Mimicking very efficient network for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017】通過提取RPN和Wang等人【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】抽樣一定比例的正負實例來解決這個問題。進一步提出只提取近GT區(qū)。然而,蒸餾的正負實例之間的比率需要精心設計,而僅蒸餾與GT相關(guān)的區(qū)域可能會忽略背景中潛在的信息區(qū)域。此外,目前的檢測蒸餾方法不能同時在多個檢測框架中工作:如two-stage, anchor-free。因此,研究者希望設計一種通用的蒸餾方法,用于各種檢測框架,以有效地使用盡可能多的知識,而不涉及正或負。

3、新框架優(yōu)勢

2.png

通過上圖可以知道,新框架有如下優(yōu)勢:

(i)可以對一個圖像中實例之間的關(guān)系知識進行建模,以便進行蒸餾。Hu【Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen Wei. Relation networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018】演示了關(guān)系信息對檢測任務的有效性。然而,基于關(guān)系的知識蒸餾在目標檢測中還沒有被探索。 

(ii)避免手動設置正、負區(qū)域的比例,或只選擇與GT有關(guān)的區(qū)域進行蒸餾。雖然GT相關(guān)的領域幾乎是信息豐富的,但極其困難和簡單的實例可能是無用的,甚至來自背景的一些信息塊也可以幫助學生學習教師的泛化。此外,研究者還發(fā)現(xiàn),自動選擇學生和教師之間的一些判別實例進行蒸餾,可以使知識傳遞更加有效。這些判別實例被稱為一般實例(GIS),因為新方法不關(guān)心正實例和負實例之間的比例,也不依賴于GT標簽。

(iii)新方法對各種檢測框架具有強大的泛化能力。基于學生和教師模型的輸出計算GIS,而不依賴于特定檢測器的某些模塊或特定檢測框架的某些關(guān)鍵特性,如anchor。

4、General Instance Distillation

先前的工作【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】提出,目標附近的特征區(qū)域有相當多的信息,這對于知識蒸餾是有用的。然而,研究者發(fā)現(xiàn),不僅目標附近的特征區(qū)域,而且即使是來自背景區(qū)域的判別塊也有意義的知識。基于這一發(fā)現(xiàn),設計了通用實例選擇模塊(GISM),如下圖所示。

3.png

該模塊利用教師和學生模型的預測來選擇蒸餾的關(guān)鍵實例。此外,為了更好地利用教師提供的信息,提取并利用基于特征、基于關(guān)系和基于響應的知識進行蒸餾,如下圖所示。實驗結(jié)果表明,新的蒸餾框架對于目前最先進的檢測模型是通用的。

4.png

5、實驗

為了驗證該方法的有效性和魯棒性,在不同的檢測框架和異構(gòu)主架構(gòu)上進行了實驗,并在COCO和Pascal VOC數(shù)據(jù)集的少數(shù)類檢測上進行了實驗。具體來說,在【Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 91–99. Curran Associates, Inc., 2015】中的設置之后,對于PascalVOC數(shù)據(jù)集,選擇在VOC2007中分割的5k訓練圖像和在VOC2012中分割的16k訓練圖像進行訓練,在VOC2007中分割的5k測試圖像進行測試。對于COCO,選擇默認的120k訓練圖像分割進行訓練,5k Val圖像分割進行測試。所有蒸餾性能均以AP進行評價。

5.png6.png7.png8.png

綠色、紅色、黃色和青色框分別表示GT、正、半正和負實例。為了進一步分析了每種類型的一般實例的貢獻,并驗證了GISM的有效性,對每種類型的一般實例進行了實驗。引入了一個名為intersection over proposals (IoP),以幫助分離這些GI:

9.png

GI的每個類型定義如下:

10.png11.png

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞:

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉