曠視孫劍博士聯手西安交大提出LGD，適用於目標檢測的知識蒸餾，訓練速度提升51%

新智元報道

編輯：LRS

【新智元導讀】

知識蒸餾已經成了目前常用的模型壓縮方法，但相關研究還侷限在影象分類任務上。最近曠視孫劍博士聯手西安交大發表了一篇論文，提出新模型LGD，無需一個強力的teacher模型也能在目標檢測任務上取得超強效果，並且訓練速度提升51%，記憶體消耗降低34%！

知識蒸餾（Knowledge distillation， KD）剛開始被用於影象分類任務時就取得了不錯的效果，通常流程就是將指導性知識從預訓練的模型作為教師teacher轉移到較小的學生student模型，從而在效能下降較少的情況下完成模型壓縮。

隨著研究的發展，知識蒸餾在目標檢測任務上也取得了一些進展，但目前的模型仍然存在一個缺陷，就是需要一個訓練的非常好的teacher，因為有研究表明，更強的teacher 可以提高蒸餾效率。

但現實世界中的應用場景很難訓練得到一個完美的teacher，所以無需預訓練的教師的通用檢測知識蒸餾（KD for generic detection without pretrained teacher）的問題幾乎沒有得到研究。為了緩解對teacher模型的依賴，一些研究關注teacher-free schemes，主要包括1）自蒸餾 self-distillation；2）協作學習 colorative learning；3）標籤正則化 label regularization，其中指導性的知識（instructive knowledge）可以是跨層特徵、競爭對手（competitive counterparts）和調製標籤分佈（modulated label distribution）。

但是這些方法是為分類而設計的，並不適用於檢測。

針對這個問題，曠視科技聯合西安交大提出了一個新的無教師目標檢測方法 Label-Guided self-Distillation （LGD）。透過高效的設計，LGD 能夠與學生模型聯合訓練，簡化流程，降低訓練成本。在推理過程中，只保留學生檢測器，不會帶來額外開銷。

這篇論文由孫劍博士指導，他是曠視首席科學家、曠視研究院院長，全面負責曠視技術研發，帶領曠視研究院發展成為全球規模最大的計算機視覺研究院。在孫劍博士的帶領下，曠視研究院研發了包括移動端高效卷積神經網路ShuffleNet、開源深度學習框架天元MegEngine、AI生產力平臺Brain++等多項創新技術，引領前沿人工智慧應用。

他的主要研究方向是計算機視覺和計算攝影學，擁有超過40項專利，自2002年以來在頂級學術會議和期刊上發表學術論文100餘篇。

文中提出的LGD 框架包含三個模組

1、標籤外觀編碼器Label-appearance encoder

這個編碼器主要計算標籤和外觀的embedding。對於每個物件，把真值框標準化為兩個座標點（x1，y1，x2，y2）和one-hot 類別向量連線起來作為描述符。面向物件的描述符被傳遞到標籤編碼模組中用於最佳化標籤嵌入。

為了引入標籤描述符之間的基本關係建模並保持置換不變性，LGD 採用經典的PointNet作為標籤編碼模組。透過多層perceptron 處理描述符，透過空間Transformer 網路進行區域性全域性建模。

根據經驗，使用PointNet作為編碼器比MLP或transformer編碼器表現稍好。

細節上，研究人員將BatchNorm替換為LayerNorm，以適應小批次檢測的設定。值得注意的是，上述1D object-wise的標籤編碼方式比LabelEnc中的方式更有效，LabelEnc構建了一個特殊的顏色對映用於描述標籤。

除了標籤編碼之外，研究人員還從包含感知物件外觀特徵的學生檢測器的特徵pyramid中檢索appearance embedding，主要採用一個掩碼池從特徵對映中提取面向物件的嵌入。預先計算物件遮蔽 object-wise mask 用於總共N個物件和一個虛擬上下文物件，位置覆蓋整個影象。對於每個物件，建立一個二進位制矩陣，其值在基本真值區域內設定為1，否則設定為0。對所有pyramid levels 同時進行掩碼池，輸入的物件掩碼被縮小以對應解析度，成為特定於比例的掩碼。

2、物件間關係介面卡 Inter-object relation adapter

在給定標籤和appearance embedding的情況下，可以透過交叉注意過程來描述物件間關係的自適應。該過程在每個學生出現金字塔尺度上執行以檢索互動嵌入。

在交叉注意過程中，利用一系列鍵和查詢標記來計算KQ注意關係，從而聚合值以獲得注意輸出。為了實現標籤引導的資訊自適應，研究人員利用當前尺度下的appearance embedding 作為query，尺度不變的標籤嵌入L作為key和value。

attention schema測量物件之間較低層次的結構外觀資訊和較高層次的標籤語義之間的相關性，然後重新組裝資訊標籤嵌入以進行動態適應。

3、物件內知識對映器 Intra-object knowledge mapper

為了使1D互動embedding 適用於廣泛使用的中間特徵提取進行檢測，研究人員將appearance embedding 對映到2D特徵對映空間以獲取指導性知識。

對於每個金字塔比例p，結果map 的解析度僅限於與相應的學生特徵map相同。直觀地說，由於緊湊表示的標籤編碼中未對顯式空間拓撲進行建模，因此恢復每個物件的定位資訊以實現幾何透視對齊非常重要。將每個物件繫結互動嵌入填充到零初始化特徵對映上對應的真值框區域中。

對於每個物件，透過計算向量化物件掩碼之間的矩陣乘法來獲得其p尺度的特徵對映，投射和互動的embedding。所有這些面向物件的對映被新增到一個統一的對映中以形成結構化知識。

知識對映器將互動嵌入對映到特徵對映空間，作為最終的指導知識，同時考慮物件內表示一致性和定位啟發式。

由於上述關係建模，最終的指導性知識自然地適應了學生的代表性，有助於有效地提煉出強大的學生檢測器和減少語義差異。

從經驗上看，LGD在各種檢測器、資料集和廣泛的任務（如例項分割）上獲得了不錯的結果。

例如，在MS-COCO資料集中，LGD在2倍單尺度訓練下使用ResNet-50將視網膜神經網路從36。2%提高到39。0%mAP（+2。8%）。在2倍多尺度訓練（46。1%）下，對於更強大的檢測器，如帶有ResNeXt-101 DCN v2的FCOS，LGD達到47。9%（+1。8%）。

對於CrowdHuman資料集中的pedes-trian檢測，LGD將mMR提高了2。3%，從而提高了R-CNN與ResNet-50的速度。

與經典的基於教師的方法FGFI相比，LGD不僅在不需要預先訓練的教師的情況下表現更好。雖然所有的提取或正則化方法都不會影響學生的推理速度，但由於先決條件的預訓練和提取過程，它們仍然可能訓練效率低下。

成本分為預訓練成本、總體成本和特定模型的成本（除學生學習之外的總體成本，也是所有方法的固有成本）。

在8個Tesla V100 GPU上執行下，研究人員發現提出的方法在總體成本和方法特定成本上分別節省了34%（23。5小時對35。5小時）和51%（11。4小時對23。4小時）。

事實上，FGFI或其他基於教師的知識蒸餾可能會有更強的教師開發能力，表現優於文中提出的知識蒸餾方法，但這可能會帶來更高的訓練負擔。與FGFI類似，LabelEnc正則化引入了兩階段訓練正規化，儘管沒有預先訓練過的教師，但對於LabelEnc，新方法節省了1小時，並且以一步式方式進行訓練。並且LabelEnc消耗了3。8G額外的gpu記憶體，除了固有檢測器的記憶體，新方法只消耗了2。5G （相對節省34%），但效能更好。

參考資料：

https：//arxiv。org/pdf/2109。11496。pdf

曠視孫劍博士聯手西安交大提出LGD，適用於目標檢測的知識蒸餾，訓練速度提升51%

猜你喜歡

推薦文章