博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 目標(biāo)檢測(cè)、實(shí)例分割、旋轉(zhuǎn)框樣樣精通!詳解高性能檢測(cè)算法 RTMDet(1)

目標(biāo)檢測(cè)、實(shí)例分割、旋轉(zhuǎn)框樣樣精通!詳解高性能檢測(cè)算法 RTMDet(1)

發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2023-01-19 來(lái)源:工程師 發(fā)布文章
近幾年來(lái),目標(biāo)檢測(cè)模型,尤其是單階段目標(biāo)檢測(cè)模型在工業(yè)場(chǎng)景中已經(jīng)得到廣泛應(yīng)用。對(duì)于檢測(cè)算法來(lái)說(shuō),模型的精度以及運(yùn)行效率是實(shí)際使用時(shí)最受關(guān)注的指標(biāo)。
因此,我們對(duì)目前的單階段目標(biāo)檢測(cè)器進(jìn)行了全面的改進(jìn):從增強(qiáng)模型的特征提取能力和對(duì)各個(gè)組件的計(jì)算量進(jìn)行均衡化,到使用動(dòng)態(tài)的軟標(biāo)簽來(lái)優(yōu)化訓(xùn)練策略,再到對(duì)數(shù)據(jù)增強(qiáng)的效率和性能進(jìn)行改進(jìn),我們對(duì)算法的各個(gè)方面都提出了新的優(yōu)化方案
通過(guò)這些改進(jìn),我們得到了從 tiny 到 extra-large 大小的一系列高性能檢測(cè)模型,我們將這套實(shí)時(shí)目標(biāo)檢測(cè)模型(Real-Time Models for object Detection)命名為 RTMDet。
其中,RTMDet-x 取得了 52.8 mAP 的精度和 300+FPS 的運(yùn)行速度,同時(shí),RTMDet-tiny 在僅有 4M 參數(shù)量的情況下達(dá)到了 41.1 mAP 的精度,超越了同級(jí)別的所有模型。RTMDet 不僅僅在目標(biāo)檢測(cè)這一任務(wù)上性能優(yōu)異,在實(shí)時(shí)實(shí)例分割以及旋轉(zhuǎn)目標(biāo)檢測(cè)這兩個(gè)任務(wù)中也同樣達(dá)到了 SOTA 的水平!
除了擁有超高的精度,RTMDet 的工程優(yōu)化也非常全面:基于 MMDeploy,RTMDet 全系列已經(jīng)支持了 ONNXRuntime 以及 TensorRT 等推理框架的部署。同時(shí),為了節(jié)約廣大煉丹師的寶貴時(shí)間,RTMDet 的訓(xùn)練效率也同樣進(jìn)行了大幅的優(yōu)化,我們?cè)?MMYOLO 中提供了高效訓(xùn)練版本的代碼,RTMDet-s 訓(xùn)練 300 epoch 僅需 14 × 8GPU 時(shí)

檢測(cè)和實(shí)例分割模型代碼已開(kāi)源至

https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet


基于 MMYOLO 的高效訓(xùn)練版本

https://github.com/open-mmlab/mmyolo/tree/dev/configs/rtmdet


基于 MMRotate 的旋轉(zhuǎn)框檢測(cè)模型:

https://github.com/open-mmlab/mmrotate/tree/1.x/configs/rotated_rtmdet


技術(shù)報(bào)告鏈接:

https://arxiv.org/abs/2212.07784

話(huà)不多說(shuō),接下來(lái)就讓我們來(lái)詳細(xì)了解 RTMDet 在各方面的改進(jìn)吧~

算法和工程優(yōu)化詳解


模型結(jié)構(gòu)設(shè)計(jì)

擁有一個(gè)高效的模型結(jié)構(gòu)是設(shè)計(jì)實(shí)時(shí)目標(biāo)檢測(cè)器最關(guān)鍵的問(wèn)題之一。自 YOLOv4 將 Cross Stage Partial Network 的結(jié)構(gòu)引入 DarkNet 之后,CSPDarkNet 因其簡(jiǎn)潔高效而被廣泛應(yīng)用于 YOLO 系列的各個(gè)改進(jìn)版中。
而 RTMDet 也將 CSPDarkNet 作為基線(xiàn),并使用同樣構(gòu)建單元組成的 CSPPAFPN 進(jìn)行多尺度的特征融合,最后將特征輸入給不同的檢測(cè)頭,進(jìn)行目標(biāo)檢測(cè)、實(shí)例分割和旋轉(zhuǎn)框檢測(cè)等任務(wù)。整體的模型結(jié)構(gòu)如下圖所示:圖片圖 1. RTMDet 模型結(jié)構(gòu)圖整體的宏觀(guān)架構(gòu)與 YOLO 系列并沒(méi)有太大區(qū)別,RTMDet 對(duì)模型的修改主要聚焦于兩點(diǎn):增加基本構(gòu)建單元的特征提取能力,以及探索模型不同組件間的計(jì)算效率和精度的平衡。
首先讓我們回顧一下 DarkNet 基本的構(gòu)建單元,如圖 2.(a) 所示,它由 1 個(gè) 1x1 的卷積和 1 個(gè) 3x3 的卷積組成,以及殘差連接組成。為了提升基本單元的特征提取能力,我們選擇引入更大的卷積核來(lái)增大感受野。
在經(jīng)過(guò)對(duì)不同 kernel size 的消融實(shí)驗(yàn)(表 1)后我們發(fā)現(xiàn),在基本單元中加入一個(gè) 5x5 的深度可分離卷積,取得了最好的計(jì)算效率與精度的平衡。新的基礎(chǔ)單元結(jié)構(gòu)如 圖 2.(b) 所示。圖片表 1. 不同 kernel size 的精度與速度的對(duì)比實(shí)驗(yàn)值得注意的是,最近提出的 YOLO 的不同改進(jìn)版,如 YOLOv6,v7,以及 PPYOLO-E,都選擇在基本單元中加入 RepVGG 的重參數(shù)化卷積模塊,如圖 2.(c),圖 2.(d) 所示。圖片圖 2. CSPDarknet、RTMDet 、PPYOLOE、YOLOv6 的基本構(gòu)建單元重參數(shù)化通過(guò)訓(xùn)練時(shí)使用多分支的結(jié)構(gòu),然后再在推理時(shí)融合成單分支的方式,在不增加推理計(jì)算量的情況下提升性能。
然而,重參數(shù)化也有其弊端,比如會(huì)明顯增加訓(xùn)練的顯存開(kāi)銷(xiāo),同時(shí)也會(huì)導(dǎo)致使用低精度對(duì)模型進(jìn)行量化時(shí)產(chǎn)生較大的性能下降。盡管可以通過(guò) QAT 等方式解決量化掉點(diǎn)的問(wèn)題,但這也使得從模型訓(xùn)練到部署的流程變得更為復(fù)雜。
因此,我們認(rèn)為引入大卷積核增加感受野的方式相比引入重參數(shù)化來(lái)說(shuō),不論是從訓(xùn)練還是部署都能夠提供更好的效果。
除了基本構(gòu)建單元的修改之外,RTMDet 還對(duì)整個(gè)模型的不同分辨率層級(jí)之間、以及 backbone 和 neck 之間的計(jì)算量分配上進(jìn)行了全面的調(diào)整。
由于在基本單元中引入了深度可分離卷積,使得模型整體的層數(shù)相比于 CSPDarkNet 來(lái)說(shuō)變得更深,從而導(dǎo)致推理速度的減慢。
為了解決這一問(wèn)題,我們對(duì)模型不同分辨率層級(jí)的基本單元數(shù)量進(jìn)行了調(diào)整,從原本 C2~C5 分別為 3-9-9-3 個(gè) block,調(diào)整為了 3-6-6-3 個(gè) block
圖片圖 3. Backbone 結(jié)構(gòu)改進(jìn)同時(shí)為了保持模型的整體計(jì)算量不變,我們略微增大了模型的寬度,并且在每個(gè) stage 之后增加一個(gè) ChannelAttention 模塊來(lái)提供通道注意力(如圖 4)。圖片圖 4. 增加通道注意力前后的 C5 stage 特征對(duì)比如表 2 所示,在經(jīng)過(guò)調(diào)整之后,模型的推理速度更快,并且能夠保持相似的精度。圖片表 2. Backbone 結(jié)構(gòu)對(duì)比實(shí)驗(yàn)而對(duì)于用來(lái)進(jìn)行多尺度特征融合的 neck 模塊來(lái)說(shuō),以往的方法,如 EfficientDet、GiraffeDet 等,都是通過(guò)增加更多的特征融合次數(shù),也就是加入更多的連接來(lái)提升性能。
然而,過(guò)多的特征層之間的連接會(huì)顯著增加顯存的占用,也會(huì)因?yàn)樵L(fǎng)存問(wèn)題而增加推理耗時(shí)。因此,我們選擇僅通過(guò)增加 neck 模塊的計(jì)算量占比來(lái)提升其性能,當(dāng) backbone 與 neck 的參數(shù)量調(diào)整至相似時(shí),整個(gè)檢測(cè)器的推理速度更快,性能也更高圖片表 3. Backbone neck 參數(shù)量分配對(duì)比實(shí)驗(yàn)除了 backbone 和 neck 之外,我們對(duì)模型的檢測(cè)頭也進(jìn)行了調(diào)整。YOLO 系列往往在不同的特征層級(jí)上分別使用獨(dú)立的檢測(cè)頭,這就導(dǎo)致了模型參數(shù)的利用率低下。因?yàn)閷?duì)于不同的特征層級(jí)來(lái)說(shuō),其檢測(cè)出的物體的特征,在相對(duì)的尺度大小下應(yīng)當(dāng)是相近的,而學(xué)術(shù)界常用的檢測(cè)器(如 RetinaNet、FCOS)使用共享參數(shù)的檢測(cè)頭也正印證了這一點(diǎn)。
但是,由于不同層級(jí)之間特征的統(tǒng)計(jì)量仍存在差異,Normalization layer 依然是必須的,由于直接在共享參數(shù)的檢測(cè)頭中引入 BN 會(huì)導(dǎo)致其滑動(dòng)平均值產(chǎn)生誤差,而引入 GN 又會(huì)增加推理時(shí)的開(kāi)銷(xiāo),因此我們參考 NASFPN 的做法,讓檢測(cè)頭共享卷積層,而 BN 則分別獨(dú)立計(jì)算。
在使用共享的檢測(cè)頭后,模型的參數(shù)量得到了減少,而且性能非但沒(méi)有下降,反而還得到了略微的提升:
圖片表 4. Head 結(jié)構(gòu)對(duì)比通過(guò)采用以上這些策略,我們又對(duì)通道和深度的超參數(shù)進(jìn)行縮放,得到了 tiny、s、m、l、x 五種不同大小的模型,其參數(shù)量分別從 4M 到 90M 遞增,以提供給不同的應(yīng)用場(chǎng)景。

訓(xùn)練策略?xún)?yōu)化


正負(fù)樣本的標(biāo)簽分配策略是目標(biāo)檢測(cè)訓(xùn)練過(guò)程中最重要的一環(huán),近幾年來(lái),標(biāo)簽分配策略從最初的基于 anchor IoU 的靜態(tài)匹配方式,逐漸演進(jìn)為使用代價(jià)函數(shù)進(jìn)行動(dòng)態(tài)標(biāo)簽分配。然而,目前主流的動(dòng)態(tài)標(biāo)簽分配策略,如匈牙利匹配、OTA 等均使用與損失函數(shù)一致的函數(shù)計(jì)算代價(jià)矩陣。
我們經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),與損失函數(shù)完全一致的代價(jià)矩陣計(jì)算方式并不是最優(yōu)的。因此,RTMDet 基于 YOLOX 的 SimOTA 進(jìn)行改進(jìn),使用了動(dòng)態(tài)的軟標(biāo)簽分配策略,其代價(jià)矩陣計(jì)算公式如下:圖片它由三個(gè)代價(jià)函數(shù)組成,首先是分類(lèi)代價(jià)函數(shù),傳統(tǒng)的分類(lèi)代價(jià)往往使用 0-1 分布的二值化標(biāo)簽進(jìn)行損失計(jì)算,這很容易導(dǎo)致,一個(gè)擁有很高分類(lèi)置信度但是擁有錯(cuò)誤檢測(cè)框的低質(zhì)量預(yù)測(cè)結(jié)果得到一個(gè)很低的分類(lèi)代價(jià),反之也是如此。
因此我們參考 GFL,將預(yù)測(cè)框與 Ground Truth 的 IoU 得分作為軟標(biāo)簽,并對(duì)不同得分的匹配進(jìn)行了重新加權(quán),使得分類(lèi)代價(jià)的匹配結(jié)果更為準(zhǔn)確和穩(wěn)定,其公式如下:圖片而對(duì)于回歸代價(jià),使用與損失函數(shù)一致的 GIoU,很容易導(dǎo)致一個(gè)低質(zhì)量的匹配和一個(gè)高質(zhì)量的匹配區(qū)分度不夠高,這是因?yàn)閷?duì)于 GIoU 函數(shù)來(lái)說(shuō),一個(gè)完全正確的檢測(cè)框和一個(gè)完全錯(cuò)誤的檢測(cè)框,他們之間的 IoU 得分也只相差了 1 而已。因此,我們選擇取對(duì)數(shù)來(lái)大低質(zhì)量與高質(zhì)量匹配之間的差異圖片最后,我們還引入了一個(gè)“軟化”的中心先驗(yàn)代價(jià)。與之前的眾多方法使用固定的先驗(yàn)區(qū)域(如 ATSS,SimOTA)不同,中心先驗(yàn)代價(jià)將位置先驗(yàn)也引入代價(jià)矩陣的計(jì)算之中,一方面能夠穩(wěn)定收斂,另一方面也能夠使匹配的正樣本區(qū)域更為靈活。圖片為了公平比較,我們?cè)跇?biāo)準(zhǔn)的 ResNet-50 12 epoch 的 setting 下與其他標(biāo)簽分配策略進(jìn)行了對(duì)比,結(jié)果顯示我們的方法取得了最優(yōu)的精度:圖片表 5. R50 1x setting 下的標(biāo)簽分配策略性能對(duì)比為了驗(yàn)證這套方法的通用性,我們也在 300 epoch 和強(qiáng)數(shù)據(jù)增強(qiáng)的情況下與 YOLOX 的 SimOTA 進(jìn)行了對(duì)比,結(jié)果顯示,我們的方法也同樣得到了更高的精度:圖片表 6. 使用 RTMDet-s 訓(xùn)練 300 epoch 的標(biāo)簽分配策略性能對(duì)比我們使用 MMYOLO 中提供的 GradCAM++ 可視化工具(demo/boxam_vis_demo.py)可視化了 neck 部分的特征圖,從下圖中可以看出,與 YOLOv6 相比,使用了動(dòng)態(tài)軟標(biāo)簽分配策略的 RTMDet 的檢測(cè)目標(biāo)的特征響應(yīng)非常集中,且沒(méi)有誤檢:圖片圖 5. 使用 GradCAM++ 對(duì) neck 部分特征響應(yīng)的可視化(左:RTMDet-l,右:YOLOv6-l)


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉