ICCV 2021：煉丹師的福音，訓練更快收斂的絕佳方案

作者：Edison_G

目標檢測是現在最熱門的研究課題，現在的框架越來越多，但是技術的新穎性到了瓶頸，目前開始流行Transformer機制，而且在目標檢測領域也能獲得較大的提升，也是目前研究的一個熱點。

那？Transformer靠什麼得以闖入CV界秒殺CNN？

開原始碼：https：//github。com/gaopengcuhk/SMCA-DETR

CNNs常被用在影象特徵提取上，在 NLP領域中，網路也會利用CNNs的一維濾波器從文字中提取有效資訊，此時的文字就對應地以一維時間序列的形式進行表示了。

所以影象處理中使用2D CNN ， NLP中就使用1D CNN，CNN的感受野（就是CNN能夠看到的區域性資訊大小）是由卷積核/濾波器的尺寸，以及濾波器的通道數所決定的。

增加捲積核的尺寸或者濾波器的通道數會增加模型的大小，也會讓模型的複雜度大幅增加。這也許會導致梯度消失的問題，從而引發讓整個網路無法訓練收斂的嚴重後果。

為解決這個問題，殘差連線（Residual connections）和空洞卷積（Dilated Convolutions）應運而生。它們能夠在一定程度上增強梯度的傳播深度，從而在一定程度上擴大模型的感受野（後面的層就能看到更多的區域性資訊）。

但是卷積神經網路畢竟只是關注區域性資訊的網路結構，它的這種計算機制導致了它在文字資訊處理上難以捕捉和儲存長距離的依賴資訊。人們一方面想擴大卷積核、增加通道數來捕捉長期依賴，一方面還害怕由於擴大模型所導致的維度災難。

DEtection TRansformer的結構圖

Transformer為視覺領域帶來了革新性的變化，它讓視覺領域中目標檢測、影片分類、影象分類和影象生成等多個領域有了長足的進步。

這些應用了 Transformer 技術的模型有的識別能達到甚至超越該領域 SOTA 解決方案的效果。更讓人興奮的是，這些技術有的甚至乾脆拋棄了 CNN，直接單單使用自注意力機制來構建網路。

新框架

就如上節提及到的Detection Transformer（DETR）模型，成功地將Transformer應用於目標檢測，並實現了與兩階段物件檢測框架（如 Faster-RCNN）相當的效能。

然而DETR也有很大的缺陷，就是收斂緩慢。從頭開始的訓練資料需要500個epoch才能達到高精度。為了加快其收斂速度，研究者提出了一種簡單而有效的改進DETR框架的方案，即Spatially Modulated Co-Attention（SMCA）機制。

SMCA的核心思想是在DETR中透過將co-attention反饋限制在初始估計的邊界框位置附近，從而進行位置感知。新提出的SMCA在保持DETR中其他操作不變的情況下，透過替換解碼器中原有的co-attention機制，提高了DETR的收斂速度。

此外，透過將multi-head和scale-selection attention設計整合到SMCA中，完整分級SMCA可以實現比基於擴展卷積主幹的DETR更好的效能（108個epoch時45。6 mAP，500個epoch時43。3 mAP）。

Spatially Modulated Co-Attention

Spatially Modulated Co-attention（SMCA），它是一個即插即用模組，用於取代DETR中現有的co-attention機制，並透過簡單的修改實現更快的收斂和更高的效能。

提出的SMCA動態預測每個物件查詢對應的框的初始中心和比例，生成二維空間高斯權重圖。權重對映與物件查詢和影象特徵的co-attention特徵對映地對應相乘，以更有效地從視覺特徵對映中聚合查詢相關資訊。

透過這種方式，空間權重圖有效地調節每個物件查詢的共同關注的搜尋範圍，使其適當地圍繞最初估計的物件中心和比例。利用高斯分佈的訓練可以顯著提高SMCR的空間預測速度。

Dynamic spatial weight maps：

每個物件查詢首先動態預測其負責物件的中心和比例，然後用於生成類似二維空間高斯權重圖。類高斯分佈的中心在［0， 1］×［0， 1］的歸一化座標中引數化。物件查詢Oq的類高斯分佈的歸一化中心 ch、cw 和尺度比例sh、sw 的初始預測公式為：

自然影象中的物件顯示出不同的比例和高/寬比。

Spatially-modulated co-attention：

給定動態生成的空間先驗G，用空間先驗G調製物件查詢Oq和自注意編碼特徵E之間的共同注意圖Ci：

SMCA with multi-head modulation：

研究者還研究了針對不同的共同注意頭以不同的方式調節共同注意特徵：

SMCA with multi-scale visual features：

特徵金字塔在目標檢測框架中很流行，並且通常會導致對單尺度特徵編碼的顯著改進。

實驗

在COCO 2017驗證集上測試結果：

集成了多尺度特徵和多頭空間調製，可以進一步顯著改進和超越DETR，只需更少的訓練迭代。

SMCA在50個epoch可實現43。7 mAP，在108個epoch可實現45。6 mAP，而DETR-DC5在500個epoch可實現43。3 mAP。

在V100 GPU上需要600 小時來訓練50個epoch的完整SMCA。

Comparison with DETR-like object detectors on COCO 2017 validation set。

參考文獻：

https：//zhuanlan。zhihu。com/p/344709166

猜你喜歡