選單

EPSANet:計算機視覺注意力論文解讀

簡介

(1)Pyramid Split Attention Block用於增強特徵提取

(2)即插即用,可將Pyramid Split Attention Block取代ResNet的3×3卷積,提出基準網路ESPANet

(3)目標分類與目標檢測任務達到state-of-the-art效果

(4)程式碼開源:https://github。com/murufeng/EPSANet

演算法

Pyramid Split Attention (PSA)在SENet的基礎上提出多尺度特徵圖提取策略,整體結構圖如下所示。具體可分為如下四個步驟:

(1)Split and Concat (SPC)模組用於獲得空間級多尺度特徵圖;

(2)SEWeight(SENet中的模組)被用於獲得空間級視覺注意力向量來抽取多尺度響應圖的目標特徵;

(3)使用Softmax函式用於再分配特徵圖權重向量;

(4)元素相乘操作用於權重向量與原始特徵圖來獲得最終結果響應圖。

EPSANet:計算機視覺注意力論文解讀

PSA模組整體結構

Split and Concat module

EPSANet:計算機視覺注意力論文解讀

SPC模組整體結構圖

如上圖所示,k0、k1­、k2和k3是不同卷積核引數(以ESPANet-small為例,論文取3,5,7和9),G0、G1、G2和G3是分組卷積的引數(以ESPANet-small為例,論文預設取1,4,8和16)。整體可看做是模型採用不同卷積核提取多尺度目標特徵,並採取Concat操作結合不同感受野下的多尺度特徵。

ESPANet

ESPANet中的block如下所示,相比於ResNet,其就是使用PSA模組取代3x3的卷積,ESPANet block整體結構如下圖所示。

EPSANet:計算機視覺注意力論文解讀

ESPANet block

因此ESPANet整體結構圖與ResNet型別,唯一區別即使在每個block中前者使用PSA模組取代後者的3x3卷積,ESPANet整體結構如下圖所示。

EPSANet:計算機視覺注意力論文解讀

ESPANet整體結構圖

程式碼

由於ESPANet整體結構圖與ResNet型別,唯一區別即使在每個block中前者使用PSA模組取代後者的3x3卷積,因此本部分著重於PSA模組的程式碼。

PSA模組整體配置如下:包含四個卷積層和SEWeight模組和Softmax函式

EPSANet:計算機視覺注意力論文解讀

PSA模組整體初始化程式碼

PSA模組前向傳播函式如下:Split——-Concat——-SEWeight——-Softmax

此外本文中使用的SEWeight就是SENet中使用的SEWeight,有興趣的可以看看這篇論文(

https://openaccess。thecvf。com/content_cvpr_2018/papers/Hu_Squeeze-and-Excitation_Networks _CVPR_2018_paper。pdf)

EPSANet:計算機視覺注意力論文解讀

PSA模組前向傳播程式碼

綜上所示,ESPANet是一個即插即用視覺注意力基準網路,可用於目標分類、檢測、分割等計算機視覺任務,整體程式碼可從(https://github。com/murufeng/EPSANet)得到。