除了Yolo的其他選擇，輕量級(jí)檢測網(wǎng)絡(luò)層出不窮（框架解析及部署實(shí)踐）

發(fā)布人：CV研究院時(shí)間：2022-10-19 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

前言&背景

圖像選自于《https://www.cnblogs.com/azureology/p/14103685.html》

目標(biāo)檢測是現(xiàn)在最熱門的研究課題，也一直是工業(yè)界重點(diǎn)研究的對(duì)象，最近幾年內(nèi)，也出現(xiàn)了各種各樣的檢測框架，所屬于YOLO系列是最經(jīng)典也是目前被大家認(rèn)可使用的檢測框架。

然而，隨著工業(yè)的應(yīng)用發(fā)展，要求也越來越嚴(yán)格，正常的檢測框架已經(jīng)無法滿足現(xiàn)在的檢測需求，所有現(xiàn)在的輕量級(jí)是備受大家的關(guān)注。深度學(xué)習(xí)目標(biāo)檢測方法還可劃分為Anchor-base和Anchor-free兩大類，今年又出現(xiàn)了將Transformer用于目標(biāo)檢測的嘗試。

CVPR21目標(biāo)檢測新框架：不再是YOLO，而是只需要一層特征（干貨滿滿，建議收藏）
目標(biāo)檢測 | Anchor free的目標(biāo)檢測進(jìn)階版本
ICCV2021：阿里達(dá)摩院將Transformer應(yīng)用于目標(biāo)重識(shí)別，效果顯著（附源代碼）

但是，在移動(dòng)端目標(biāo)檢測算法上，Yolo系列Anchor-base的模型一直占據(jù)主導(dǎo)地位。但是今天“計(jì)算機(jī)視覺研究院”介紹的是Anchor-free的NANODet框架以及部署應(yīng)用。

框架介紹

Super fast and lightweight anchor-free object detection model. Real-time on mobile devices.

真實(shí)使用NANODet框架，確實(shí)比YOLO-Fastest系列好用很多，比YOLOF都好用一些，下一期，我們“計(jì)算進(jìn)視覺研究院”計(jì)劃給大家一起來詳細(xì)說說YOLO-Fastest系列。

現(xiàn)在Github提供的整體，都已在安卓運(yùn)行，華為P30上用NCNN移植跑benchmark，每幀僅需10.23毫秒，比yolov4-tiny快3倍，參數(shù)量小6倍，COCO mAP(0.5:0.95)能夠達(dá)到20.6 。而且模型權(quán)重文件只有1.8mb。

我們現(xiàn)在先說下NANODet的具體創(chuàng)新。首先是檢測頭，需要對(duì)移動(dòng)端進(jìn)行優(yōu)化的就是檢測頭：FCOS系列使用了共享權(quán)重的檢測頭，即對(duì)FPN出來的多尺度Feature Map使用同一組卷積預(yù)測檢測框，然后每一層使用一個(gè)可學(xué)習(xí)的Scale值作為系數(shù)，對(duì)預(yù)測出來的框進(jìn)行縮放。

圖片來自于：

https://openaccess.thecvf.com/content_ICCV_2019/papers/Tian_FCOS_Fully_Convolutional_One-Stage_Object_Detection_ICCV_2019_paper.pdf

這么做的好處是能夠?qū)z測頭的參數(shù)量降低為不共享權(quán)重狀態(tài)下的 1/5。這對(duì)于光是檢測頭就擁有數(shù)百通道卷積的大模型來說非常有用，但是對(duì)于輕量化模型來說，共享權(quán)重檢測頭并沒有很大的意義。由于移動(dòng)端模型推理由 CPU 執(zhí)行計(jì)算，共享權(quán)重并不會(huì)帶來推理過程的加速，而且在檢測頭非常輕量的情況下，共享權(quán)重使其檢測能力進(jìn)一步下降，因此項(xiàng)目作者認(rèn)為選擇對(duì)每一層特征使用一組卷積比較合適。

，時(shí)長00:53

其次，是對(duì)損失函數(shù)做了一些改變。將FCOS輕量化處理時(shí)，由于FCOS的centerness分支在輕量級(jí)的模型上很難收斂，模型效果不如預(yù)期。最終，NanoDet使用了李翔等人提出的Generalized Focal Loss損失函數(shù)。該函數(shù)能夠去掉FCOS的Centerness分支，省去這一分支上的大量卷積，從而減少檢測頭的計(jì)算開銷，非常適合移動(dòng)端的輕量化部署。

改論文地址：https://arxiv.org/pdf/2006.04388.pdf最后，項(xiàng)目作者借鑒了Yolo系列的做法，將邊框回歸和分類使用同一組卷積進(jìn)行計(jì)算，然后 split 成兩份。最終得到的輕量化檢測頭如下圖所示：

FPN 層改進(jìn)

摘自于《機(jī)器之心》

目前針對(duì) FPN 的改進(jìn)有許多，如EfficientDet使用了BiFPN，YOLO v4和v5使用了PAN，除此之外還有BalancedFPN等等。BiFPN雖然性能強(qiáng)大，但是堆疊的特征融合操作會(huì)導(dǎo)致運(yùn)行速度降低，而PAN只有自上而下和自下而上兩條通路，非常簡潔，是輕量級(jí)模型特征融合的好選擇。

原版的PAN和YOLO系列中的PAN都使用了stride=2的卷積進(jìn)行大尺度Feature Map到小尺度的縮放。而該項(xiàng)目出于輕量化的考慮，選擇完全去掉 PAN 中的所有卷積，只保留從骨干網(wǎng)絡(luò)特征提取后的1x1卷積來進(jìn)行特征通道維度的對(duì)齊，上采樣和下采樣均使用插值來完成。與YOLO使用的concatenate操作不同，項(xiàng)目作者選擇將多尺度的Feature Map直接相加，使整個(gè)特征融合模塊的計(jì)算量變得非常小最終得到的極小版 PAN結(jié)構(gòu)非常簡單：

圖片源自于《https://zhuanlan.zhihu.com/p/306530300》

主干網(wǎng)絡(luò)

項(xiàng)目作者選擇使用ShuffleNetV2 1.0x作為主干網(wǎng)絡(luò)，他去掉了該網(wǎng)絡(luò)的最后一層卷積，并且抽取8、16、32倍下采樣的特征輸入到PAN中做多尺度的特征融合。整個(gè)主干模型使用了Torchvision提供的代碼，能夠直接加載Torchvision上提供的imagenet預(yù)訓(xùn)練權(quán)重，對(duì)加快模型收斂起到很大幫助。

部署

生成部署文件

pth 轉(zhuǎn)化為ONNX

python tools/export.py --cfg_path /config/EfficientNet-Lite/nanodet-EfficientNet-Lite1_416.yml --model_path  /model_best/model_best.pth --out_path model_test.onnx --input_shape 416,416

ONNX轉(zhuǎn)化NCNN

1)編譯ncnn

參考 https://blog.csdn.net/weixin_40970506/article/details/105148061

2)安裝onnx==1.8.1

3)cd onnx-simplifier-master

python -m onnxsim  /nanodet/nanodet-main/tools/model_test.onnx nanodet_sim.onnx

4)轉(zhuǎn)換成bin

cd /ncnn-master/build/tools/onnx

./onnx2ncnn /onnx-simplifier-master/nanodet_sim.onnx nanodet_m.param nanodet_m.bin

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

加速度計(jì)相關(guān)文章:加速度計(jì)原理
攝像頭相關(guān)文章:攝像頭原理

博客專欄

除了Yolo的其他選擇，輕量級(jí)檢測網(wǎng)絡(luò)層出不窮（框架解析及部署實(shí)踐）

相關(guān)推薦

技術(shù)專區(qū)

博客專欄

除了Yolo的其他選擇，輕量級(jí)檢測網(wǎng)絡(luò)層出不窮（框架解析及部署實(shí)踐）

相關(guān)推薦

技術(shù)專區(qū)

除了Yolo的其他選擇，輕量級(jí)檢測網(wǎng)絡(luò)層出不窮（框架解析及部署實(shí)踐）