零樣本目標檢測:魯棒的區(qū)域特征合成器用于目標檢測
零樣本目標檢測(Zero-shot object detection)旨在結(jié)合類語義向量來實現(xiàn)在給定無約束測試圖像的情況下檢測(可見和)未見過的類。
一、前言
在這項研究中,研究者揭示了該研究領域的核心挑戰(zhàn):如何合成與真實樣本一樣具有類內(nèi)多樣性和類間可分性的魯棒區(qū)域特征(對于未見對象),從而可以實現(xiàn)強大的未見目標檢測器。
為了應對這些挑戰(zhàn),研究者構(gòu)建了一個新穎的零樣本目標檢測框架,其中包含一個類內(nèi)語義發(fā)散組件和一個類間結(jié)構(gòu)保留組件。前者用于實現(xiàn)一對多映射,從每個類語義向量中獲取不同的視覺特征,防止將真實的看不見的物體誤分類為圖像背景。而后者用于避免合成特征過于分散而混淆類間和前景-背景關系。
為了證明所提出方法的有效性,對PASCAL VOC、COCO和DIOR數(shù)據(jù)集進行了綜合實驗。值得注意的是,新提出的方法在PASCAL VOC和COCO上實現(xiàn)了最先進的性能,并且是第一個在遙感圖像中進行零樣本目標檢測的研究。
二、背景
隨著CNN和Transformer等深度學習技術(shù)的快速發(fā)展,目標檢測研究領域取得了訊飛的進步。盡管現(xiàn)有方法實現(xiàn)的檢測性能看起來很有希望和令人鼓舞,但在實際場景中應用它們存在一個隱藏的缺點——主流檢測方法對要檢測的類別有嚴格的限制。
一旦模型被訓練,它只能識別出現(xiàn)在訓練數(shù)據(jù)中的物體,而其他出現(xiàn)在測試圖像中但在訓練過程中看不到的物體會極大地混淆模型,導致無法避免的檢測結(jié)果錯誤。為了解決這個問題,近年來提出了零樣本目標檢測(ZSD)的任務。目標是使檢測模型能夠預測在訓練期間沒有任何可用樣本的看不見的對象。
三、新框架分析
在這項工作中研究問題的插圖。在實際情況下,樣本構(gòu)建的特征空間顯示出較高的類內(nèi)多樣性,但仍具有類間可分離性,如a所示,而現(xiàn)有方法學習的合成視覺特征空間要么類內(nèi)多樣性不足(如b所示),或具有過多的類內(nèi)多樣性,使類間不可分割(如c所示)。
上圖顯示了提出的ZSD總體框架??梢钥闯觯粋€目標檢測模塊和一個域變換模塊。目標檢測模塊是一個Faster-RCNN模型,以ResNet-101作為主干。
首先,我們用看到的圖像及其相應的groundtruth注釋來訓練Faster-RCNN模型。獲得模型后,可以用它來使用RPN為所見類提取區(qū)域特征。其次,我們訓練區(qū)域特征合成器來學習語義詞向量和視覺特征之間的映射。然后,使用學習到的特征合成器為看不見的類生成區(qū)域特征。通過這些合成的未見區(qū)域特征及其相應的類別標簽,我們可以為未見類別訓練未見分類器。最后,我們更新Faster-RCNN模型中的分類器,以實現(xiàn)ZSD任務的新檢測器。
整個訓練過程也在Algorithm 1中進行了詳細說明。請注意,新提出的方法核心是如何學習統(tǒng)一的生成模型來學習視覺域和語義域之間的關系。具體來說,研究者設計了一個統(tǒng)一的區(qū)域特征合成器,用于在現(xiàn)實世界檢測場景中進行特征合成,其中包含一個類內(nèi)語義發(fā)散組件和一個類間結(jié)構(gòu)保持組件。
四、實驗及可視化
Comparison of mAP at IoU=0.5, under ZSD and GZSD settings on PASCAL VOC dataset
Comparison of Recall@100 and mAP at IoU=0.5 over two seen/unseen splits, under GZSD setting on MS COCO dataset
PASCAL VOC、MS COCO(48/17和65/15)和DIOR數(shù)據(jù)集的定性結(jié)果。對于每個數(shù)據(jù)集,第一列和第二列分別是ZSD和GZSD的結(jié)果。看到的類用綠色表示,看不見的用紅色表示。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。