TransCenter：MIT＆INRIA開源多目標物體跟蹤演算法

機器之心專欄

INRIA、MIT等

近日，來自 MIT 等機構研究者提出了 TransCenter，這是首個用於預測密集目標點熱力圖（dense center heatmap）Transformer MOT 架構。在相同訓練策略和同等資料下，TransCenter 在兩個標準 MOT 資料集上（MOT17 以及稠密的 MOT20）均超越了 SOTA 方法。

自從引入 Transformer 以來，其在 NLP 任務中就已被證明擁有卓越的效能。計算機視覺也不例外，近些年，Transformer 的使用在計算機視覺領域也變得非常流行。例如，Carian et al。的 DETR 目標檢測網路提出利用稀疏查詢（sparse queries）的方式來搜尋影象中的物體。同期工作也大多從 DETR 出發，保留稀疏查詢，將 DETR 簡單推廣到多目標跟蹤（MOT）任務中。

儘管如此，多目標跟蹤（MOT）仍表現出與 Transformer 某種程度上的不相容：即標準的目標框（bounding box）表示方法配合稀疏查詢對於學習基於 Transformer 的 MOT 任務不是一種最優的方案。

受近期基於錨點（point-based）MOT 方法的啟發，

來自 MIT 等機構的研究提出 TransCenter，這是首個用於預測密集目標點熱力圖（dense center heatmap）Transformer MOT 架構

。

具體而言，該研究提出利用畫素級密集多尺度查詢（dense pixel-level multi-scale queries）配合 Transfromer 強大的全域性表示能力，全域性且充足地檢測和跟蹤目標中心（center tracking）。相同訓練策略和同等資料下，TransCenter 在兩個標準 MOT 資料集上（MOT17 以及稠密的 MOT20）均超越了 SOTA 方法。特別地，在 MOT20 上，用更少的訓練資料，該研究甚至超越了基於錨點的 MOT 以前 SOTA 方法。另外，與從 DETR 到 MOT 的簡單推廣相比，實驗研究也證明了所提出的架構表現出明顯的效能和架構優勢。

論文：https：//arxiv。org/abs/2103。15145

程式碼：https：//github。com/yihongXU/TransCenter

出發點

1。目標框（bounding box）的表示方式，在極度稠密的場景下會帶來具有歧義且高度重疊的目標位置表示。解決目標框的歧義，終極的方式是提供稠密的目標標記（例如分割掩碼，segmentation mask）。但是這種標記往往需要消耗大量的人力成本，而且在 MOT 任務上，尚沒有此類可用的大規模資料集。近期，基於錨點的 MOT 方法大大地緩解目標框帶來的歧義且表現出 SOTA 的效能，如例 1 所示。

例 1：在稠密資料集（MOT20）裡，錨點能更好地表示目標的位置。

2。目前多目標跟蹤（MOT）大多基於先檢測後跟蹤的方式。所以，準確卻不遺漏的檢測出目標是提高 MOT 效能的關鍵因素之一。DETR 利用獨立於影象且隨機初始化的稀疏查詢（sparse queries）來檢測目標，這往往會帶來漏檢（false negatives）。

3。另外，簡單地提高稀疏查詢數目（例如從預設的 100 個查詢提高到與輸出影象畫素同等的查詢數目）是有風險且不可行的，因為它會帶來充滿噪聲的誤檢（false positives）。並且，因為隨機初始化的查詢不依賴於影象，每一次改變查詢數目，都需要重新微調訓練（fine-tune）網路。

4。因為查詢（queries）是獨立於影象的，DETR 在訓練的每一步，都需要用一對一的匹配演算法（例如匈牙利演算法，Hungarian Algorithm）去匹配物體真值位置和網路預測位置。匹配演算法十分耗時，而且由於目標框帶來的歧義，匹配結果往往不是最優。

5。最後，以往基於錨點的 MOT 方法使用傳統的 CNN 網路，其區域性性導致對於人體點的預測往往不是全域性的。換言之，一個目標中心點的預測並沒有考慮所有目標中心點位置。這種相對獨立的區域性預測方式可能會帶來漏檢或者誤檢。

創新思路

基於以上問題，該研究重新精心設計了一種基於 Transformer 的 MOT 網路架構。具體來說，他們拋棄了以往從稀疏查詢輸出稀疏目標框的方式，提出採用畫素級密集多尺度查詢（dense pixel-level multi-scale queries）預測密集目標錨（中心）點熱力圖的方式。這種密集表示方式有多種優勢：

1。大大緩解了目標框重疊的問題而且多尺度的查詢能更好地檢測並跟蹤不同尺寸的目標。

2。因為該研究的密集查詢是從影象特徵圖獲得的，與影象高度相關，所以查詢密度自適應於輸入影象的大小。換言之，隨著輸入影象的大小變化，查詢數目自動變化。無需人工重新調整查詢數目並微調。

3。另外，TransCenter 在訓練過程中不在需要繁瑣的匈牙利匹配（Hungarian Algorithm）演算法。這是因為一個查詢對應一個畫素，而一個畫素唯一地表示一個物體中心或者背景，所以查詢和物體中心真值天然地匹配。在訓練過程中，只需要簡單地迴歸中心位置。

4。更重要的是，充足的查詢數目能保證充足的檢測。同時，依賴於影象的畫素級別查詢（image-dependent pixel-level queries）表現出更乾淨的檢測和跟蹤結果。

5。最後，因為 Transformer 的全域性特徵特性，TransCenter 能全域性地預測各個目標的中心點並且將它們在時域上關聯起來，因而表現出更高的 FP-FN 平衡，輸出更充足且更乾淨的 MOT 結果。

得益於以上的設計優點，該研究在兩個基準（benchmarks）中均取得了 SOTA 的結果。

網路結構及方法

TransCenter 整體架構

TransCenter 的整體架構如圖所示，該研究採用經典的 encoder-decoder 結構。由於密集查詢（Dense Queries）的引入，研究者在編碼器（Transformer Decoder）和解碼器（Transformer Decoder）上均採用更高效的 Deformable Transformer （zhu et al。）以解決密集查詢帶來的訓練記憶體和執行效率的限制。

TransCenter 網路的輸入為 t-1 和 t 時刻的影象（640x1088），它們會預先透過一個 ResNet-50 提取多尺度特徵，然後該多尺度會被輸入到 Transformer 編碼器。編碼器的作用是全域性地編碼輸入特徵圖，並乘以注意力圖，從而得到多尺度帶注意力的特徵圖，稱為 memories，分別標記為M_t-1 和M_t。值得注意的是，提取 t-1 和 t 時刻影象資訊的網路是共享權重的。

緊接這，t 時刻的多尺度帶注意力特徵圖 M_t 會被用於產生兩組不同的多尺度密集查詢：多尺度密集檢測查詢（dense multi-scale detection queries）以及多尺度密集跟蹤查詢（dense multi-scale tracking queries），分別標記為 DQ_t 和 TQ_t。兩種密集查詢的產生依賴於查詢學習網路（QLN），後者由 2 個具有 ReLU 啟用和跳過連線（skip connection）的全連線層組成。

在解碼器端，該研究認為檢測和跟蹤是兩個不同的任務，因此所需的注意力也不同。對於檢測任務，網路需要根據多尺度密集檢測查詢 DQ_t，在多尺度帶注意力特徵圖 M_t 裡檢測出所有目標。而對於跟蹤，根據從 t 時刻多尺度密集跟蹤查詢 TQ_t 得到的目標位置和特徵，我們則需要在 t-1 時刻的多尺度帶注意力特徵圖 M_t-1 內找到對應的 t-1 時刻目標。出於這一考量以及實驗驗證，該研究採用一種並行的雙解碼器（dual decoder）結構，分別處理檢測和跟蹤兩個任務（Transformer Detection/Tracking Decoder）。兩個並行的解碼器分別輸出檢測特徵和跟蹤特徵，分別記為 DF_t 和 TF_t。前者用於估計目標大小 S_t 和目標中心熱力圖 C_t，兩者結合 t-1 時刻的目標中心熱力圖一起用於估計跟蹤位移 T_t。最後，網路訓練的損失函式和前期基於錨點的 MOT 方法類似，更多細節，請參考論文。

SOTA 比較

該研究分別在兩個基準（MOT7 和 MOT20）上與 SOTA 方法比較。值得注意的是，為了公平地比較，研究者將 SOTA 方法根據公共檢測框（public detections）和自帶檢測框（private detections）進行分組，可以看到許多方法只在其中一種條件下進行測試。另外，該研究還根據不同數量的訓練資料，將不同方法以不同顏色標記（橘色採用一組額外的訓練資料，綠色只是用官方的資料，紅色採用 5 組額外資料）。

由結果可以得出，與同期 Transformer MOT 的工作相比，在同等資料量以及同樣的訓練策略下，TransCenter 展現出明顯的效能優勢。而對比前期以錨點為基礎的 MOT 方法，TransCenter 同樣取得更優的結果。這也驗證了 TransCenter 網路設計的有效性。

最後，對比已發表的 SOTA 方法，該研究以明顯的效能優勢取得了新的 SOTA 結果。