選單

收藏|基於深度學習的影象匹配技術一覽

本文

約20000字

,建議閱讀

10+

分鐘

本文對影象匹配的各類方法進行了詳細介紹,包括方法對比、優缺點及適用場景。

影象匹配

應用:

目標識別、目標跟蹤、超解析度影像重建、視覺導航、影象拼接、三維重建、視覺定位、場景深度計算。

方法:

基於深度學習的特徵點匹配演算法、實時匹配演算法、3維點雲匹配演算法、共面線點不變數匹配演算法,以及基於深度學習的影象區域匹配等。

分類:

區域性不變特徵點匹配、直線匹配、區域匹配。

Part1:區域性不變特徵點匹配-2D

1. 什麼是影象特徵點?- 關鍵點+描述子

關鍵點:

指特徵點在影象中的位置,具有方向、尺度等資訊;

描述子:

描述子通常是一個向量,描述關鍵點鄰域的畫素資訊。

2. 如何進行特徵點匹配?- 人工設計檢測器

在向量空間對兩個描述子進行比較,距離相近則判定為同一個特徵點。

角點、邊緣點等都可以作為潛在特徵點:

SIFT總結【5】:許允喜等,對區域性影象描述符進行分析描述,對這類方法的計算複雜度、評價方法和應用領域予以總結。

SIFT總結【4】:劉立等,對 SIFT 演算法的演變以及在不同領域的典型應用進行了較為全面的論述,並比較了各類演算法的優缺點。

SIFT演算法改進【9】【10】【11】:針對演算法時間複雜度高,PCA-SIFT, SURF, SSIF。

SIFT演算法改進【12】:對彩色圖 像進行處理的 CSIFT( colored SIFT)。

SIFT演算法改進【13】:使用對數極座標分級結構的 GLOH( gradient location and orientation histogram)。

SIFT演算法改進【14】:具有仿射不變性的ASFIT( affine SIFT)。

Fast【2】:透過鄰域畫素對比進行特徵點檢測並引入機器學習加速這一過程,可應用在對實時性要求較高的場合,如影片監控中的目標識別。由於 FAST 僅處理單一尺度影象,且檢測的不僅僅是“角點”這一特徵,還可以檢測到其他符合要求的特徵點,如孤立的噪點等。當影象中噪點較多時會產生較多外點,導致魯棒性下降。

Harris【1】:透過兩個正交方向上強度的變化率對角點進行定義,其本身存在尺度固定、畫素定位精度低、偽角點較多和計算量大等問題。

Harris改進演算法【6】:將多解析度思想引入 Harris 角點,解決了Harris演算法不具有尺度變化的問題。

Harris改進演算法【7】:在 Harris 演算法中兩次篩選候選點集,利用最小二乘加權距離法實現角點亞畫素定位,大幅度提高角點檢測效率和精度。

Harris改進演算法【8】:將灰度差分及模板與 Harris 演算法相結合,解決了 Harris 演算法中存在較多偽角點和計算量大等問題。

角點檢測演算法 - 最常用:基於影象灰度的方法。

鄰域畫素檢測。

SIFT【3】:不再侷限於對角點檢測。

3. 如何進行特徵點匹配?

3.1 深度學習特徵檢測器 - 區域性特徵點的重複檢測

FAST-ER演算法【15】:

把特徵點檢測器定義為一種檢測高重複點的三元決策樹,並採用模擬退火演算法對決策樹進行最佳化,從而提高檢測重複率。由於在每次迭代過程中,都需要對重新應用的新決策樹進行檢測,且其效能受到初始關鍵點檢測器的限制,降低了該演算法的魯棒性。

時間不變特徵檢測器( TILDE) 【16】:

Verdie等人提出,能夠較好地對由天氣、季節、時間等因素引起的劇烈光照變化情況下的可重複關鍵點進行檢測。參與訓練的候選特徵點是由多幅訓練影象中採用 SIFT 演算法提取的可重複關鍵點組成,如圖a;正樣本是以這些點為中心的區域,負樣本是遠離這些點的區域。在進行迴歸訓練時,正樣本 在特徵點位置返回最大值,遠離特徵點位置返回較小值,如圖 b ; 迴歸測試時,將測試影象分成固定大小的影象塊,其迴歸響應如圖c ,然後根據非極大值抑制提取特徵點,如圖d 。該方法適用於處理訓練資料和測試資料為同一場景的影象。(TILDE 採用手動標記的資料作為區分性特徵訓練,使用DOG-difference of Gaussian收集訓練集,對於跨模態任務如RGB/深度模態對不再適用)

收藏|基於深度學習的影象匹配技術一覽

基於學習的協變特徵檢測器【17】:

綜合考慮兩個區域性特徵檢測器特性(檢測可區分的特徵;協變約束-在不同的變換下重複檢測一致特徵),Zhang 等人提出。該方法將 TILDE 的輸出作為候選標準影象塊,透過變換預測器的訓練建立學習框架,將區域性特徵檢測器的協變約束轉化為變換預測器的協變約束,以便利用迴歸( 如深度神經網路) 進行變換預測。預測的變換有兩個重要性質: 1) 變換的逆矩陣能將觀察到的影象 塊對映到“標準塊”,“標準塊”定義了具有可區分性的影象塊以及塊內“典型特徵”( 如單位圓) 的位置和形狀; 2) 將變換應用到“典型特徵”可以預測影象 塊內變換特徵的位置和形狀。

Quadnetworks【18】:

採用無監督學習方式進行特徵點檢測。Savinov 等人提出,該方法將關鍵點檢測問題轉化為影象變換上的關鍵點一致性排序問題,最佳化後的排序在不同的變換下具有重複性,其中關鍵點來自響應函式的頂/底部分位 數。Quad-networks 的訓練過程如圖所示,在兩幅影象中提取隨機旋轉像塊對( 1,3) 和( 2,4) ; 每個塊 經過神經網路輸出一個實值響應 H( p w) ,其中 p 表示點,w 表示引數向量; 透過四元組的排序一致函式計算鉸鏈損失,並透過梯度下降法最佳化。Quadnetworks 在 RGB/RGB模式和RGB/深度模式的重複檢測效能均優於 DOG,可以和基於學習的描述符 相結合進行影象匹配,還可用於影片中的興趣幀檢測。

收藏|基於深度學習的影象匹配技術一覽

3.2 深度學習特徵描述符學習

用於特徵點描述符判別學習的 DeepDesc【19】:

Simo-Serra 等人提出,該方法採用 Siamese 網路側重訓練難以區分類別的樣本,輸入影象塊對,將 CNN 輸出的非線性對映作為描述符,採用歐氏距離計算相似性並最小化其鉸鏈損失。該方法適用於不同的資料集和應用,包括寬基線影象匹配、非剛性變形和極端光照變化的情況,但該方法需要大量的訓練資料來保證其魯棒性。

3.3 深度學習各階段統一

Yi 等人提出【20】:基於學習的不變特徵變換( LIFT)

結合空間變換網路【21】和 Softargmax 函式,將基於深度學習的特徵點檢測【16】、基於深度學習的方向估計【22】和基於深度學習的描述符【19】連線成一個統一網路,從而實現完整特徵點匹配處理流水線。其中影象塊的裁剪和旋轉透過空間變換網路實現,訓練階段採用四分支 Siamese 網路,輸入特徵點所在影象塊,其位置和方向均來自 SFM 演算法的輸出,其中 P1 和 P2 為同一3D點在不同視角下的影象,P3 為不同3D點的投影的影象塊,P4 為不包含任何特徵點的影象快,S 為得分圖,x 代表特徵點位置。採用從後至前的訓練策略,即先訓練描述子,再訓練方向估計,最後訓練特徵點檢測。測試階段,將特徵點檢測與方向估計及描述子分開,使最佳化問題易於處理。LIFT 方法的輸入為多尺度影象,以滑窗形式進行特徵點檢測,提取區域性塊逐個分配方向,再計算描述子。與 SIFT 相比,LIFT 能夠提取出更為稠密的特徵點,且對光照和季節變化具有很高的魯棒性。

收藏|基於深度學習的影象匹配技術一覽

3.4 不同物件或場景的匹配方法研究(影象語義匹配):

與考慮在時間(光流) 或空間(立體) 相鄰的影象特徵對應不同,語義對應的特徵是影象具有相似的高層結構,而其精確的外觀和幾何形狀可能不同。

3.4.1 相同物件類的像對匹配

經 典 SIFT 流方法【23】:

提出不同場景的稠密對應概念,透過平滑約束和小位移先驗計算不同場景間的稠密對應關係。

Bristow 等人【24】:

將語義對應問題轉化為約束檢測問題,並提出Examplar-LDA( Examplar linear discriminant analysis) 分類器。首先對匹配影象中的每個畫素學習一個 Examplar-LDA 分類器,然後以滑動視窗形式將其應用到目標影象,並將所有分類器上的匹配響應與附加的平滑先驗結合,從而獲得稠密的對應估計。該方法改善了語義流的效能,在背景雜亂的場景下具有較強魯棒性。

3.4.2 不同物件類的像對匹配

Novotny 等人【25】:

提出基於幾何敏感特徵的弱監督學習方法AnchorNet。在只有影象級標籤的監督下,AnchorNet 依賴一組從殘差超列 HC( hypercolumns) 中提取具有正交響應的多樣過濾器,該過濾器在同一類別的不同例項或兩個相似類別之間具有幾何一致性。AnchorNet 透過在 ILSVRC12 ( imagenet large scale visual recognition competition 2012) 上預先訓練的深度殘差網路( ResNet50) 模型初始化網路引數,並採用兩階段最佳化與加速訓練完成匹配。

3.4.3 多影象語義匹配

可以找到多個影象間的一致對應關係,從而在應用中發揮更為重要的作用:

物件類模型重建【26】

自動地標註釋【27】

Wang 等人【28】:

將多影象間的語義匹配問題轉化為特徵選擇與標註問題,即從每幅影象的初始候選集中選擇一組稀疏特徵點,透過分配標籤建立它們在影象間的對應關係。該方法可以為滿足迴圈一致性和幾何一致性的影象集合建立可靠的特徵對應關係,其中迴圈一致性可以對影象集合中的可重複特徵進行選擇和匹配。低秩約束用於確保特徵對應的幾何一致性,並可同時對迴圈一致性和幾何一致性進行最佳化。該方法具有高度可擴充套件性,可以對數千幅影象進行匹配,適用於在不使用任何註釋的情況下重構物件類模型。

3.5 影象匹配應用於臨床的精確診療

透過精確比對器官的幾何形狀,來判斷臟器是否存在病變;透過分析腫瘤的幾何特徵,來判斷腫瘤是否為惡性。

Yu 等人[29]提 出 A-NSIFT( accelerated multi-dimensional scale invariant feature transform) 與 PO-GMMREG( parallel optimization based on gaussian mixture model registration) 相結合的方法

,改進了特徵提取和匹配過程。ANSIFT 為加速版 NSIFT,採用 CUDA 程式設計加速 NSIFT 的前兩個步驟,用於提取匹配影象和待匹配影象中的特徵點( 僅保留位置資訊) 。PO-GMMREG 是基於並行最佳化的高斯混合模型( GMM) 匹配演算法,並行最佳化使得匹配影象和待匹配影象可以任意旋轉角度對齊。該方法可以減少時間消耗,提高大姿態差異下的匹配精度。

TV-L1 ( total variation-L1 ) 光流模型[30]

能有效地保持影象邊緣等特徵資訊,但對於保持具有弱導數性質的紋理細節資訊仍不夠理想。

張桂梅等人[31]將

G-L ( Grünwald-Letnikov ) 分數階微分理論引入TV-L1 光流模型

,代替其中的一階微分,提出分數階 TV-L1 光流場模型 FTV-L1 ( fractional TV-L1 ) 。同時給出匹配精度和 G-L 分數階模板引數之間關係,為最佳模板選取提供依據。FTV-L1 模型透過全變分能量方程的對偶形式進行極小化以獲得位移場,可以解決影象灰度均勻,弱紋理區域匹配結果中的資訊模糊問題。該方法能有效提高影象匹配精度,適合於包含較多弱紋理和弱邊緣資訊的醫學影象匹配。

為了解決待匹配影象對中目標的大形變和灰度分佈呈各向異性問題,

陸雪松等人[32]將兩幅影象的 聯合 Renyi α -entropy 引入多維特徵度量並結合全域性和區域性特徵,從而實現非剛性匹配。

首先,採用最小距離樹構造聯合Renyi α -entropy 度量準則;其次,根據該度量相對形變模型 FFD( free-form deformation) 的梯度解析表示式,採用隨機梯度下降法進行最佳化; 最後,將影象的 Canny 特徵和梯度方向特徵融入度量中,實現全域性和區域性特徵的結合。該方法的匹配精度與傳統互資訊法和互相關係數法相比有明顯提高,且新度量方法能克服因影象區域性灰度分佈不一致造成的影響,能夠在一定程度上減少誤匹配。

Yang 等人[33] 提出的 FMLND( feature matching with learned nonlinear descriptors)

採用基於學習的區域性非線性描述符 LND 進行特徵匹配,對來自 T1w 和 T2w 兩種不同成像引數的磁共振成像( MRI) 資料的 CT( computed tomography) 影象進行預測。該過程分為兩個階段: 學習非線性描述符和預測 pCT( pseudo CT) 影象。第 1 階段,首先採用稠密 SIFT 提取 MR 影象的特徵; 其次透過顯式特徵對映將其投影到高維空間並與原始塊強度結合,作為初始非線性描述符; 最後在基於改進的描述符學習( SDL) 框架中學習包含監督的 CT 資訊的區域性描述符。第 2 階段,在訓練 MR 影象的約束空間內搜尋輸入 MR 影象的區域性描述符的 K 最近鄰域,和對應原始 CT 塊進行對映,對重疊的 CT 塊進行加權平均處理得到最終的pCT 塊。與僅使用成像引數 T1w 或 T2w 的 MR 影象方法相比,FMLND 方法提高了預測的準確率。

對骨盆CT和MRI匹配可以促進前列腺癌放射治療兩種方式的有效融合。由於骨盆器官的模態外觀間隙較大,形狀/外觀變化程度高,導致匹配困難。基於此,

Cao 等人【34】提出基於雙向影象合成的區域自適應變形匹配方法

,用於多模態骨盆影象的匹配,雙向影象合成,即從MRI合成CT並從CT合 成MRI。多目標迴歸森林 MT-RF 採用CT模式和MRI模式對方向影象合成進行聯合監督學習,消除模態之間的外觀差異,同時保留豐富的解剖細節,其匹配流程為: 首先,透過 MT-RF 合成雙向影象,獲得實際CT和合成CT( S-CT) 的CT像對以及實際MRI和合成 MRI( S-MRI) 的 MRI 像對;其次,對CT像對的骨骼區域和 MRI像對的軟組織區域進行檢測,以結合兩種模式中的解剖細節;最後,利用從兩種模式中選擇的特徵點進行對稱匹配。在匹配過程中,特徵點數量逐漸增加,對形變場的對稱估計起到較好的分級指導作用。該方法能夠較好地解決骨盆影象匹配問題,具有較高的準確性和魯棒性。

3.6 影象匹配應用於遙感影象處理-高解析度

何夢夢等人【35】

對細節紋理資訊豐富的高解析度光學及 SAR( synthetic aperture radar) 遙感影象進行分析,提出一種特徵級高解析度遙感影象快速自動匹配方法。該方法首先對匹配影象和待匹配影象進行 Harr 小波變換,將其變換到低頻近似影象再進行後續處理,以提高影象匹配速度;接著對光學影象和 SAR 影象分別採用 Canny 運算元和 ROA( ratio of averages) 運算元進行邊緣特徵提取,並將邊緣線特徵轉換成點特徵;而後透過匹配影象和待匹配影象中每對特徵點之間的最小和次小角度之比確定初始匹配點對,並透過對隨機抽樣一致性演算法( RANSAC) 新增約束條件來濾除錯誤匹配點對;最後採用分塊均勻提取匹配點對的方法,進一步提高匹配精度。該方法能快速實現並具有較高的配準精度和較好的魯棒性。

3.7 剔除誤差匹配

3.7.1 幾何約束為引數的情況,如要求相應點位於極線上

Fischler 等 人[36]提出 RANSAC 方法,

採用迭代方式從包含離群資料的資料集中估算出數學模型。進行匹配點對的提純步驟為: 1) 從已匹配的特徵點對資料集中隨機抽取四對不共線的點,計算單應性矩陣 H,記作模型 M; 2) 設定一個閾值 t,若資料集中特徵點與 M 之間的投影誤差小於t,就把該點加入內點集,重複以上步驟,迭代結束後對應內點數量最多的情況即為最優匹配。RANSAC 對誤匹配點的剔除依賴單應性矩陣的計算,存在計算量大、效率低等問題。

文獻[37] 透過引入針對內點和外點的混合機率模型實現了引數模型的最大似然估計。

文獻[38] 使用支援向量迴歸學習的對應函式

,該函式將一幅影象中的點對映到另一幅影象中的對應點,再透過檢驗它們是否與對應函式一致來剔除異常值。

將點對應關係透過圖匹配進行描述[39-40]

為了在不依賴 RANSAC 情況下恢復大量內點,

Lin 等人【41】提出 BF( bilateral functions) 方法

,從含有噪聲的匹配中計算全域性匹配的一致函式,進而分離內點與外點。BF從一組初始匹配結果開始,利用每個匹配定義的區域性仿射變換矩陣計算兩幅影象之間的仿射運動場。在給定運動場的情況下,BF為每個特徵在描述符空間尋找最近鄰匹配以恢復更多對應關係。與RANSAC 相比,雙邊運動模型具備更高的查全率和查準率。

受BF啟發,Bian 等人【42】將運動平滑度作為統計量,提出基於網格的運動統計( GMS) 方法,根據最近鄰匹配數量區分正確匹配和錯誤匹配點對。GMS 演算法的核心為運動統計模型,如圖 4 所示。其中,si 和 sj 分別表示正確匹配 xi 和錯誤匹配 xj 的運動統計,為了加速這一過程,可將整幅影象劃分成 G = 20 × 20 的網格,並在網格中進行操作。由於 GMS 演算法在進行網格劃分時,並未考慮影象大小,對於長寬比例不一致的影象,會生成矩形狀的網格,導致網格中特徵分佈不均。基於此,文獻[43]透過計算五宮格特徵分數剔除外點,並將影象大小作為約束對影象進行方形網格劃分,能夠在提高運算速度的同時獲得與 GMS 演算法相同的匹配精度。

收藏|基於深度學習的影象匹配技術一覽

3.7.2 幾何約束為非引數

Ma 等人[44]提出 VFC( vector field consensus) 方法,利用向量場的光滑先驗,從帶有外點的樣本中尋找向量場的魯棒估計。向量場的光滑性由再生核希爾伯特空間( RKHS) 【45】範數表徵,VFC 演算法基於這一先驗理論,使用貝葉斯模型的最大後驗( MAP) 計算匹配是否正確,最後使用 EM 演算法將後驗機率最大化。VFC 演算法的適用範圍: 1) 誤匹配比例高的時候( 遙感影象、紅外影象和異質影象) ; 2) 無法提供變換模型的時候(如非剛性變形、相機引數未知);3) 需要一個快速匹配演算法且不需要求解變換引數的時候。

Part2:區域性不變特徵點匹配-3D

3維影象常用的表現形式包括: 深度圖( 以灰度表達物體與相機的距離) 、幾何模型( 由 CAD軟體建立) 、點雲模型( 所有逆向工程裝置都將物體取樣成點雲) ,3 維點匹配演算法中常見的是基於點雲模型的和基於深度模型的。點雲模型中的每個點對應一個測量點,包含了最大的資訊量。

1. 特徵檢測

PointNet【46】

可以直接將 3D 點雲作為輸入,其改進版。

PointNet++【47】

能更好地提取區域性資訊。3 維區域性描述符在 3 維視覺中發揮重要作用,是解決對應估計、匹配、目標檢測和形狀檢索等的前提,廣泛應用在機器人技術、導 航( SVM) 和場景重建中。點雲匹配中的 3 維幾何描述符一直是該領域的研究熱點,這種描述符主要依賴 3 維區域性幾何資訊。

Deng 等人[48]提出具有全域性感知的區域性特徵提取網路 PPFNet ( point pair feature network) 。

PPFNet 結構如圖 5 所示。塊描述 Fr 由點對特徵( PPF) 集合、區域性鄰域內的點及法線構成,首先採用 PointNet 處理每個區域塊,得到區域性特徵;其次透過最大池化層將各個塊的區域性特徵聚合為全域性特徵,將截然不同的區域性資訊彙總到整個片段的全域性背景中;最後將該全域性特徵連線到每個區域性特徵,使用一組多層感知機( MLP) 進一步將全域性和區域性特徵融合到最終全域性背景感知的區域性描述符中。PPFNet 在幾何空間上學習區域性描述符,具有排列不變性,且能充分利用原始點雲的稀疏性,提高了召回率,對點雲的密度變化有更好的魯棒性。但其記憶體使用空間與塊數的 2 次方成正比,限制了塊的數量,目前只能設定為 2 K。

收藏|基於深度學習的影象匹配技術一覽

在基於深度模型的匹配演算法中,

Zhou 等人【49】基於多檢視融合技術Fuseption-ResNet(FRN)

,提出多檢視描述符 MVDesc。FRN 能將多檢視特徵對映整合到單檢視上表示,如圖 6 所示。其中,檢視池化 ( view pooling) 用於快捷連線,Fuseption 分支負責學習殘差對映,兩個分支在精度和收斂率方面互相加強。採用 3 × 3、1 × 3 和 3 × 1 3 種不同核心尺寸的輕量級空間濾波器提取不同型別的特徵,並採用上 述級聯特徵對映的 1 × 1 卷積負責跨通道統計量的合併與降維。將 FRN 置於多個並行特徵網路之上,並建立 MVDesc 的學習網路,其中卷積 6 的通道數與特徵網路輸出的特徵對映通道數相同。

收藏|基於深度學習的影象匹配技術一覽

與依賴多檢視影象或需要提取固有形狀特徵的卷積神經網路不同,

Wang 等人[50]提出一種可以根據 3 維曲面形狀生成區域性描述符的網路框架。

該方法將關鍵點的鄰域進行多尺度量化並引數化為 2 維網格,並將其稱之為幾何影象,描述符的訓練過程如下: 首先 提取曲面上關鍵點鄰域的多尺度區域性塊,根據這些塊構造一組幾何影象;其次將這些塊輸入 Triplet 網路,每個網路分支採用 ConvNet ( convolutional networks) 訓練; 最後輸出 128 維描述符,並採用 MinCV Triplet 損失函式最小化錨樣本和正樣本距離的變異係數(CV) 之比。相對於其他區域性描述符學習方法,該方法具有更好的可區分性、魯棒性及泛化能力。

Georgakis 等人[51]提出用於特徵點檢測和描述符學習的端到端框架。

該框架基於 Siamese 體系結 構,每個分支都是一個改進的 Faster R-CNN[52]。如 圖 7 所示,採用 VGG-16 的卷積層 cov5_3 提取深度圖I的深度卷積特徵,一方面經過RPN( region propose network) 處理,產生特徵點的候選區域( 橙色區域) 及分數 S ; 另一方面輸入到 RoI( region of interest) 池化層,經過全連線層將特徵點候選區域對映到對應卷積特徵f 上; 取樣層以候選區域的質心 x、 卷積特徵 f 、深度影象值 D、相機姿態資訊 g 和相機內在引數作為輸入,動態生成區域性塊對應標籤(正或負) ,並採用對比損失函式 Lcontr 最小化正樣本對間的特徵距離,最大化負樣本對間的距離,該方法對視角變化具有一定的魯棒性。

收藏|基於深度學習的影象匹配技術一覽

2. 誤差剔除

採用基於圖模型的3維誤匹配點剔除方法RMBP( robust matching using belief propagation) 。該模型可以描述匹配對之間的相鄰關係,並透過置信傳播對每個匹配對進行推斷驗證,從而提高 3 維點匹配的準確性和魯棒性。

Part3:直線匹配

研究直線匹配首先要克服線特徵本身存在的一些問題,如端點位置不準確、影象邊緣特徵不明顯、線段碎片問題等,與點特徵相比,線特徵包含更多場景和物件的結構資訊。線特徵匹配方法可以大致分為 3 種: 基於單線段匹配方法、基於線段組方法和基於共面線—點不變數(LP) 方法。

1. 基於單線段匹配

Wang 等人[53]提出 的 MSLD( mean standard deviation line descriptor)

方法透過統計畫素支援區域內每個子區域 4 個方向的梯度向量構建描述子矩陣,進而提高描述符的魯棒性。MSLD 對具有適當變化的紋理影象有較好的匹配效果,可以應用在 3 維重建和目標識別等領域。為了解決 MSLD 對尺度變化敏感問題,文獻[54]將區域仿射變換和 MSLD 相結合,利用核線約束確定匹配影象對應的同名支援域,並對該支援域進行仿射變換以統一該區域大小,實現不同尺度影象上直線的可靠匹配。

與 MSLD 相似

,Zhang 等人[55]提出 線帶描述符( LBD)

,線上支援區域( LSR) 中計算描述符,同時利用直線的區域性外觀和幾何特性,透過成對幾何一致評估提高對低紋理影象直線匹配的精確度。該方法可在不同尺度空間中檢測線段,能夠克服線段碎片問題,提高抗大尺度變化的魯棒性。

2. 基於線段組方法

當像對間旋轉角度過大時,單線段匹配方法的匹配準確率不高,可以採用線段組匹配方法透過更多的幾何資訊解決這一問題。

Wang 等人[56]基於線段區域性聚類的方式提出半區域性特徵 LS( line signature)

,用於寬基線像對匹配,並採用多尺度方案提高尺度變化下的魯棒性。

為了提高在光照不受控制情況下對低紋理影象的匹配準確度

,López 等人[57]將直線的幾何特性、區域性外觀及線鄰域結構上下文相結合,提出雙檢視( two-view) 直線匹配演算法 CA。

首先對線特徵進行檢測: 1) 在高斯尺度空間利用基於相位的邊緣檢測器提取特徵; 2) 根據連續性準則將邊緣特徵區域性區域近似為線段; 3) 在尺度空間進行線段融合。其次,該方法中的相位一致性對於影象亮度和對比度具有較高不變性,線段融合可以減少重疊線段以及線段碎片出現。最後,線特徵匹配採用迭代方式進行,透過不同直線鄰域的區域性結構資訊來增強每次迭代的匹配線集,該方法適用於低紋理影象中線特徵的檢測與匹配。

基於線段組匹配方法對線段端點有高度依賴性,影象變換及部分遮擋可能導致端點位置不準確,進而影響匹配效果。

3. 基於共面線—點不變數( LP) 方法

Fan 等人[58-59]利用線及其鄰域點的區域性幾何資訊構造共面線—點不變數( LP) 用於線匹配。

LP 包括:“一線 + 兩點”構成的仿射不變數和“一線 + 四點”構成的投影不變數。該投影不變數和“兩線+兩點”構成的投影不變數[60] 相比,可以直接用於線匹配而無需複雜的組合最佳化。根據直線的梯度方向,將線鄰域分為左鄰域和右鄰域( 線梯度方向) ,以獲得左右鄰域內與線共面的匹配點,進行線相似性度量時,取左右鄰域相似性的最大值。

該方法對誤匹配點和影象變換具有魯棒性,但高度依賴匹配關鍵點的準確性。為此,

Jia 等 人[61]基於特徵數 CN[62]提出一種新的共面線—點 投影不變數。

CN 對交叉比進行擴充套件,採用線上點和線外點描述基礎幾何結構。透過“五點”構造線—點不變數,其中兩點位於直線上,另外三點位於直線同一側但不共線,如圖 8 所示。點 KP1 l ,KP2 l , P1 ,P2 ,P3 用於構造該不變數,透過兩點連線可以獲得其他特徵點。計算直線鄰域相似性時,把線鄰域按照線梯度方向分為左鄰域和右鄰域( 梯度方向) ,根據線點不變數分別計算左、右鄰域的相似性。這種相似性度量方法受匹配特徵點的影響較小。該方法對於低紋理和寬基線影象的線匹配效果要優於其他線匹配演算法,對於很多影象失真也有較好魯棒性。由於該線—點不變數是共面的,對於非平面場景影象的處理具有侷限性。

收藏|基於深度學習的影象匹配技術一覽

收藏|基於深度學習的影象匹配技術一覽

Part4:區域匹配

1. 區域特徵提取與匹配方法

區域特徵具有較高的不變性與穩定性,在多數影象中可以重複檢測,與其他檢測器具有一定互補性,被廣泛應用於影象識別、影象檢索、影象拼接、3 維重建、機器人導航等領域。

Matas 等人[64]於 2002 年提 出最大穩定極值區域( MSER) 採用分水嶺方法,

透過對灰度影象取不同閾值分割得到一組二值圖,再分析相鄰二值影象的連通區域獲得穩定區域特徵。經典MSER演算法具有較高的時間複雜度。

Nistér 等 人[65]基於改進的分水嶺技術提出一種線性計算 MS

ER

的演算法,

該演算法基於畫素的不同計算順序,獲得與影象中存在灰度級數量相同的畫素分量資訊,並透過元件樹表示對應灰度級。MSER 這類方法可用於影象斑點區域檢測及文字定位,也可與其他檢測器結合使用,如文獻[66]將 SURF 和 MSER 及顏色特徵相結合用於影象檢索,文獻[67]將 MSER 與 SIFT 結合用於特徵檢測。

區域特徵檢測還可利用計算機技術中的樹理論進行穩定特徵提取,

Xu 等人[68]提出一種基於該理論的拓撲方法 TBMR( tree-based Morse regions)

。該方法以 Morse 理論為基礎定義臨界點:最大值點、最小值點和鞍點,分別對應最大樹葉子節點、最小樹葉子節點和分叉節點。TBMR 區域對應樹中具有唯一子節點和至少具有一個兄弟節點的節點。如圖 10 所示,節點 A 和 C 代表最小值區域; 節點 H 和 E 代 表最大值區域; 節點 A ∪ B ∪ C ∪ D ∪ G 和 E ∪ F ∪ G ∪ H 表示鞍點區域; 節點 A ∪ B 、C ∪ D 、E ∪ F 為所求 TBMR 區域。該方法僅依賴拓撲資訊,完全繼承形狀空間不變性,對視角變化具有魯棒性,計算速度快,與 MSER 具有相同複雜度,常用於影象配準和 3 維重建。

收藏|基於深度學習的影象匹配技術一覽

2. 模板匹配:

模板匹配是指給定一個模板( 通常是一塊小影象區域) ,在目標影象中尋找與模板對應區域的方法,被廣泛應用於目標跟蹤、目標檢測及影象拼接等領域。

模板和目標影象子視窗間的相似性度量是模板匹配的主要部分,常採用逐畫素比較的計算方式,如上述方法採用的 SAD、CSAD 和 SV-NCC,此外還有差值平方和 SSD 等,這些方法在影象背景雜亂或發生複雜形變的情況下不再適用。

Korman 等人[69]提出可以處理任意仿射變換的模板匹配演算法 FAST-Match ( fast affine template matching)

,該方法首先將彩色影象灰度化,再構建仿射變換集合,並遍歷所有可能的仿射變換,最後計算模板與變換後區域之間絕對差值的和 SAD,求取最小值作為最佳匹配位置。該方法能夠找到全域性最優匹配位置,但對彩色影象匹配時,需預先轉換成灰度影象,而這一過程損失了彩色空間資訊,降低了影象匹配的準確率。

Jia 等人[70]將灰度空間的 SAD 拓展到 RGB 空間形成 CSAD( colour SAD)

,提出適合彩色影象的模板匹配演算法 CFAST-Match ( colour FAST match) 。該方法透過向量密度聚類演算法計算每個畫素點所屬類別,並統計同類畫素個數及 RGB 各通道的累計值,以此求解每個分類的向量中心,將向量中心作為 CSAD 的判定條件,同類畫素個數的倒數作為分值係數,以此建立新的相似性度量機制。

上方法對存在明顯色差的區域具有較高匹配精度,但部分引數依據經驗設定,且不適合處理大尺寸影象。為了解決這一問題,

文獻[71]提出一種基於分值圖的模板匹配演算法。

該方法依據彩色影象的多通道特徵,採用抽樣向量歸一化互相關方法 ( SVNCC) 度量兩幅影象間的區域一致性,以降低光照和噪聲影響。

Dekel 等人[72-73]

基於模板與目標影象間的最近鄰( NN) 匹配屬性提出 一種新的 BBS( best-buddies similarity) 度量方法

,採用不同影象特徵( 如顏色、深度) 透過滑動視窗方式統計模板點與目標點互為 NN 的匹配數量,並將匹配數量最多的視窗視為最終匹配位置。但該演算法在發生劇烈非剛性形變或處於大面積遮擋及非均勻光照等環境下匹配魯棒性差。文獻[74]利用曼哈頓距離代替 BBS 演算法中的歐氏距離,並對生成的置信圖進行閾值篩選和濾波,能夠較好地解決光照不均勻、模板中外點較多與旋轉變形等多種複雜條件下的匹配問題。

採用雙向 NN 匹配導致 BBS 的計算時間較長,

Talmi 等人[75]提出基於單向 NN 匹配的 DDIS ( deformable diversity similarity) 方法

。首先計算目標影象視窗點在模板中的 NN 匹配點,並統計對應同一匹配點的數量,計算畫素點的置信度。其次採用歐氏距離計算目標點和對應 NN 匹配點間距離,最後 結合度量模板和目標影象視窗間的相似性獲得匹配結果。儘管 DDIS 降低了演算法複雜度並提高了檢測精度,但當形變程度較大時依然會影響匹配效果。

由於 DDIS 對每個滑動視窗單獨計算 NN 匹配且滑動視窗的計算效率較低,導致模板在與較大尺寸的目標影象進行匹配時,處理時間較長。為此,

Talker 等人[76]基於單向 NN 匹配提出 DIWU( deformable image weighted unpopularity) 方法。

與 DDIS 基於目標影象視窗點不同,DIWU 計算整幅目標影象點在模板中的最近鄰匹配點,若多個畫素的 NN 匹配點相同,則畫素的置信分數就低,匹配的正確性就低。DIWU 以第 1 個影象視窗的分數為基礎,逐步計算之後的每個視窗分數,該方法在保證匹配準確性的同時,提高了運算速度,使得基於 NN 的模板匹配適合實際應用。

BBS 和 DDIS 均採用計算矩形塊間的相似性度量解決幾何形變和部分遮擋問題,但滑動視窗的使用限制了遮擋程度。

Korman 等人[77]基於一致集最 大化( CSM) 提出適用於存在高度遮擋情況下的模 板匹配演算法 OATM ( occlusion aware template matching) 。

OATM 透過約簡方法,將單個向量和 N 個目標向量間的匹配問題轉化為兩組 槡N 向量間的匹配問題,並基於隨機網格雜湊演算法進行匹配搜尋。匹配搜尋的過程為尋找 CSM 的過程,即使用閾值內的 殘差對映進行變換搜尋。OATM 提高了演算法的處理 速度,較好地解決了遮擋問題。

與基於歐氏距離的畫素間的相似性不同,共現統計( cooccurrence statistics) 是從資料中學習畫素間 的相似性。

Kat 等人[78]透過統計模板點和目標點在 目標影象視窗共同出現的機率提出 CoTM( cooccurrence based template matching) 。

CoTM 在處理彩色 圖時,採用 k-means 聚類演算法將影象量化為 k 個類簇,根據共現矩陣統計模板和目標影象中的類簇對在目標影象中共同出現的次數,再基於每個類簇的先驗機率進行歸一化,構造點互資訊( PMI) 矩陣,值越大表明共現機率越高,誤匹配率越低。最後根據 PMI 計算模板類簇中的畫素和目標影象視窗中包含的類簇中的畫素之間的相關性,選出最佳匹配位置。CoTM 也適用於顏色特徵之外的其他特徵,如深度特徵,可將共現統計( 捕獲全域性統計) 與深度特徵 ( 捕獲區域性統計資料) 相結合,在基於標準資料集的 模板匹配中提升匹配效果。

3. 深度學習方法-塊匹配:

近年來,基於深度學習的影象區域匹配成為研究熱點,卷積神經網路( CNN) 在區域性影象區域匹配的應用中,根據是否存在度量層可以分為兩類:

第一類為具有度量層的方法,這類網路通常把影象塊對匹配問題視為二分類問題。

Han 等 人[79] 提出的 MatchNet 透過 CNN 進行影象區域特徵提取和相似性度量,過程如圖 11 所示。

對於每個輸入影象塊, 特徵網路輸出一個固定維度特徵,預處理層的輸入為灰度影象塊,起到歸一化作用。卷積層啟用函式 為 ReLU,瓶頸( bottlebeck) 層為全連線層,能夠降低特徵維度並防止網路過擬合。採用 3 個全連線層組 成的度量網路計算特徵對的匹配分數,雙塔結構在監督環境下聯合訓練特徵網路和度量網路。

Zagoruyko 等人[80] 提出 DeepCompare 方法

,透過 CNN 比較灰度影象塊對的相似性。該方法對基礎網路框架 Siamese、pseudo-Siamese 和 2 通道( 2ch) 進行描述,並在此基礎上採用深度網路、中心環繞雙 流網路( central-surround two-stream,2stream) 和空間 金字塔池化( SPP) 網路提升基礎框架效能。

為了提高衛星影像的配準率,

範大昭等人[81]提出基於空間尺度雙通道深度卷積神經網路方法 ( BBS-2chDCNN)

。BBS-2chDCNN 是在雙通道深度卷積神經網路( 2chDCNN) 前端加入空間尺度卷積層,以加強整體網路的抗尺度特性。2chDCNN 將待匹配點對區域性合成的兩通道影像作為輸入資料,依次進行 4 次卷積、ReLU 操作、最大池化操作,3 次卷積和 ReLU 操作,最後進行扁平化和兩次全連線操作輸出一維標量結果。該方法適用於處理異源、多時相、多解析度的衛星影像,較傳統匹配方法能提取到更為豐富的同名點。

第二類方法不存在度量層,這類網路的輸出即為特徵描述符,在某些應用中可以直接代替傳統描述符。

Balntas 等人[82]提出的 PN-Net 採用 Triplet 網路訓練

,訓練過程如圖 14 所示。影象塊三元組 T = { p1,p2,n} ,包 括 正 樣 本 對 ( p1,p2 ) 和 負 樣 本 對 ( p1,n) 、( p2,n) ,採用 SoftPN 損失函式計算網路輸 出描述子間相似性,以確保最小負樣本對距離大於正樣本對距離。表 2 給出所採用的 CNN 體系結構 的引數,採用 32 × 32 畫素的影象塊作為輸入,括號內的數字表示卷積核大小,箭頭後面的數字表示輸出通道數,Tanh 為啟用函式。與其他特徵描述符相比,PN-Net 具有更高效的描述符提取及匹配效能,能顯著減少訓練和執行時間。

Yang 等人[83]提出用於影象塊表示的一對互補描述符學習框架 DeepCD。

該方法採用 Triplet 網路 進行訓練,輸出主描述符( 實值描述符) 和輔描述符 ( 二值描述符) ,如圖 15 所示,輸入影象區域包括正樣本對 ( a,p) ,負樣本對 ( a,n) 和 ( p,n) ,L 代表 主描述符,C 代表輔描述符,Δ 代表主描述符距離, Δ 珚代表輔描述符距離。資料相關調製層( DDM) 透過學習率的動態調整實現輔助描述符對主導描述符的輔助作用。該方法能夠有效地提高影象塊描述符在各種應用和變換中的效能。

以上這些方法都是對影象塊對或三元組進行的處理,

Tian 等人[84]提出的 L2-Net 透過 CNN 在歐氏空間將一批影象塊轉換成一批描述符,將批處理中的最近鄰作為正確匹配描述符。

如圖 16 所示,每個 卷積層左邊數字代表卷積核大小,右邊數字表示輸出通道數,2 表示下采樣層的步長; 3 × 3 Conv 由卷積、批歸一化( BN) 和 ReLU( rectified linear unit) 組成; 8 × 8 Conv 由卷積和批歸一化( BN) 組成; 區域性響應歸一化層( LRN) 作為單元描述符的輸出層,獲 得 128 維描述符。CS L2-Net 由兩個獨立 L2-Net 級聯成雙塔結構,左側塔輸入和 L2-Net 相同,右側塔輸入是中心裁剪後的影象塊。採用漸進式取樣策略,在參與訓練的批樣本中,從每對匹配樣本中隨機抽取一個組成若干不匹配樣本,增加負樣本數量。與成對樣本和三元組樣本相比,能夠利用更多負樣本資訊。

比較

收藏|基於深度學習的影象匹配技術一覽

收藏|基於深度學習的影象匹配技術一覽

收藏|基於深度學習的影象匹配技術一覽

2維點匹配

TILDE

https://cvlab。epfl。ch/research/tilde

協變特徵檢測[17]

http://dvmmweb。cs。columbia。edu/files/3129。pdf

https://github。com/ColumbiaDVMM/Transform_Covariant_Detector

DeepDesc

http://icwww。epfl。ch/~trulls/pdf/iccv-2015-deepdesc。pdf

https://github。com/etrulls/deepdesc-release

LIFT

https://arxiv。org/pdf/1603。09114。pdf

https://github。com/cvlab-epfl/LIFT

Quad-networks

https://arxiv。org/pdf/1611。07571。pdfGMShttp://jwbian。net/gmsVFC

http://www。escience。cn/people/jiayima/cxdm。html

3維點匹配

PPFNet

http://tbirdal。me/downloads/tolga-birdal-cvpr-2018-ppfnet。pdf

文獻[51]

http://cn。arxiv。org/pdf/1802。07869

文獻[49]

http://cn。arxiv。org/pdf/1807。05653

文獻[50]

http://openaccess。thecvf。com/content_ECCV_2018/papers/Hanyu_Wang_Learning_3D_Keypoint_ECCV_2018_paper。pdf

語義匹配

樣本LDA分類器

http://ci2cv。net/media/papers/2015_ICCV_Hilton。pdf

https://github。com/hbristow/epic

AnchorNet

http://openaccess。thecvf。com/content_cvpr_2017/papers/Novotny_AnchorNet_A_Weakly_CVPR_2017_paper。pdf

文獻[28]

http://cn。arxiv。org/pdf/1711。07641

線匹配

LBD

http://www。docin。com/p-1395717977。html

https://github。com/mtamburrano/LBD_Descriptor

新線點投影不變數[61]

https://github。com/dlut-dimt/LineMatching

模板匹配

FAST-Match

http://www。eng。tau。ac。il/~simonk/FastMatch/

CFAST-Match

https://wenku。baidu。com/view/3d96bf9127fff705cc1755270722192e453658a5。html

DDIS

https://arxiv。org/abs/1612。02190

https://github。com/roimehrez/DDIS

DIWU

http://liortalker。wixsite。com/liortalker/code

CoTM

http://openaccess。thecvf。com/content_cvpr_2018/CameraReady/2450。pdf

OATM

http://cn。arxiv。org/pdf/1804。02638

塊匹配

MatchNet

http://www。cs。unc。edu/~xufeng/cs/papers/cvpr15-matchnet。pdf

https://github。com/hanxf/matchnet

DeepCompare

http://imagine。enpc。fr/~zagoruys/publication/deepcompare/

PN-Net

https://arxiv。org/abs/1601。05030

https://github。com/vbalnt/pnnet

L2-Net

http://www。nlpr。ia。ac。cn/fanbin/pub/L2-Net_CVPR17。pdf

https://github。com/yuruntian/L2-Net

DeepCD

https://www。csie。ntu。edu。tw/~cyy/publications/papers/Yang2017DLD。pdf

https://github。com/shamangary/DeepCD

參考文獻:

[1] Harris C,Stephens M. A combined corner and edge detector [C]/ /Proceedings of the 4th Alvey Vision Conference. Manchester: AVC,1988: 147-151. [DOI: 10. 5244 /C. 2. 23]

[2] Rosten E,Drummond T. Machine learning for high-speed corner detection[C]/ /Proceedings of the 9th European Conference on Computer Vision. Graz,Austria: Springer,2006: 430-443. [DOI: 10. 1007 /11744023_34]

[3] Lowe D G. Distinctive image features from scale-invariantkeypoints[J]. International Journal of Computer Vision,2004, 60( 2) : 91-110. [DOI: 10. 1023 /B: VISI. 0000029664. 99615. 94]

[4] Liu L,Zhan Y Y,Luo Y,et al. Summarization of the scale invariant feature transform[J]. Journal of Image and Graphics, 2013,18( 8) : 885-892. [劉立,詹茵茵,羅揚,等. 尺度不 變特徵 變 換 算 子 綜 述[J]. 中 國 圖 象 圖 形 學 報,2013, 18( 8) : 885-892.][DOI: 10. 11834 /jig. 20130801]

[5] Xu Y X,Chen F. Recent advances in local image descriptor[J]. Journal of Image and Graphics,2015,20( 9) : 1133-1150. [許 允喜,陳方. 區域性影象描述符最新研究進展[J]. 中國圖象 圖形學報,2015,20( 9) : 1133-1150.][DOI: 10. 11834 /jig. 20150901]

[6] Zhang X H,Li B,Yang D. A novel Harris multi-scale corner detection algorithm[J]. Journal of Electronics and Information Technology,2007,29 ( 7) : 1735-1738. [張小 洪,李 博,楊 丹. 一種新的 Harris 多尺度角點檢測[J]. 電子與資訊學報, 2007,29 ( 7 ) : 1735-1738.] [DOI: 10. 3724 / SP. J. 1146. 2005. 01332]

[7] He H Q,Huang S X. Improved algorithm for Harris rapid subpixel corners detection[J]. Journal of Image and Graphics, 2012,17( 7) : 853-857. [何海清,黃聲享. 改進的 Harris 亞 畫素角點快速定位[J]. 中國圖象圖形學報,2012,17( 7) : 853-857.][DOI: 10. 11834 /jig. 20120715]

[8] Zhang L T,Huang X L,Lu L L,et al. Fast Harris corner detection based on gray difference and template[J]. Chinese Journal of Scientific Instrument,2018,39( 2) : 218-224. [張立亭,黃 曉浪,鹿琳琳,等. 基於灰度差分與模板的 Harris 角點檢測 快速演算法[J]. 儀器儀表學報,2018,39( 2) : 218-224.]

[9] Ke Y,Sukthankar R. PCA-SIFT: a more distinctive representation for local image descriptors[C]/ /Proceedings of 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington,DC: IEEE,2004: 506-513. [DOI: 10. 1109 /CVPR. 2004. 1315206]

[10] Bay H,Tuytelaars T,Gool L. SURF: speeded up robust features [C]/ /Proceedings of the 9th European Conference on Computer Vision. Graz,Austria: Springer,2006: 404-417. [DOI: 10. 1007 /11744023_32]

[11] Liu L,Peng F Y,Zhao K,et al. Simplified SIFT algorithm for fast image matching[J]. Infrared and Laser Engineering,2008, 37( 1) : 181-184. [劉立,彭復員,趙坤,等. 採用簡化 SIFT 演算法實 現 快 速 圖 像 匹 配[J]. 紅外與鐳射工程,2008, 37( 1) : 181-184.][DOI: 10. 3969 /j. issn. 1007-2276. 2008. 01. 042]

[12] Abdel-Hakim A E,Farag A A. CSIFT: a SIFT descriptor with color invariant characteristics[C]/ /Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York,NY: IEEE,2006: 1978-1983. [DOI: 10. 1109 /CVPR. 2006. 95]

[13] Mikolajczyk K,Schmid C. A performance evaluation of local descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27 ( 10 ) : 1615-1630. [DOI: 10. 1109 /TPAMI. 2005. 188]

[14] Morel J M,Yu G S. ASIFT: a new framework for fully affine invariant image comparison[J]. SIAM Journal on Imaging Sciences,2009,2( 2) : 438-469. [DOI: 10. 1137 /080732730]

[15] Rosten E,Porter R,Drummond T. Faster and better: a machine learning approach to corner detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32( 1) : 105- 119. [DOI: 10. 1109 /TPAMI. 2008. 275]

[16] Verdie Y,Yi K M,Fua P,et al. TILDE: a temporally invariant learned DEtector[C]/ /Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA: IEEE, 2015: 5279-5288. [DOI: 10. 1109 /CVPR. 2015. 7299165]

[17] Zhang X,Yu F X,Karaman S,et al. Learning discriminative and transformation covariant local feature detectors[C]/ /Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI: IEEE,2017: 4923-4931. [DOI: 10. 1109 /CVPR. 2017. 523]

[18] Savinov N,Seki A,Ladicky L,et al. Quad-networks: unsupervised learning to rank for interest point detection[C]/ /Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI: IEEE,2017: 3929-3937. [DOI: 10. 1109 /CVPR. 2017. 418]

[19] Simo-Serra E,Trulls E,Ferraz L,et al. Discriminative learning of deep convolutional feature point descriptors[C]/ /Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago,Chile: IEEE,2015: 118-126. [DOI: 10. 1109 / ICCV. 2015. 22]

[20] Yi K M,Trulls E,Lepetit V,et al. LIFT: learned invariant feature transform[C]/ /Proceedings of the 14th European Conference on Computer Vision. Amsterdam,The Netherlands: Springer,2016: 467-483. [DOI: 10. 1007 /978-3-319-46466-4_28]

[21] Jaderberg M,Simonyan K,Zisserman A,et al. Spatial transformer networks[C]/ /Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM,2015: 2017-2025.

[22] Yi K M,Verdie Y,Fua P,et al. Learning to assign orientations to feature points[C]/ /Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV: IEEE,2016: 107-116. [DOI: 10. 1109 /CVPR. 2016. 19]

[23] Liu C,Yuen J,Torralba A. SIFT flow: dense correspondence across scenes and its applications[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence,2011,33( 5) : 978-994. [DOI: 10. 1109 /TPAMI. 2010. 147]

[24] Bristow H,Valmadre J,Lucey S. Dense semantic correspondence where every pixel is a classifier[C]/ /Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE,2015: 4024-4031. [DOI: 10. 1109 / ICCV. 2015. 458]

[25] Novotny D,Larlus D,Vedaldi A. AnchorNet: A weakly supervised network to learn geometry-sensitive features for semantic matching[C]/ /Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI: IEEE, 2017: 2867-2876. [DOI: 10. 1109 /CVPR. 2017. 306]

[26] Kar A,Tulsiani S,Carreira J,et al. Category-specific object reconstruction from a single image[C]/ /Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE,2015: 1966-1974. [DOI: 10. 1109 /CVPR. 2015. 7298807]

[27] Thewlis J,Bilen H,Vedaldi A. Unsupervised learning of object landmarks by factorized spatial embeddings[C]/ /Proceedings of 2017 IEEE International Conference on Computer Vision. Venice,Italy: IEEE,2017: 3229-3238. [DOI: 10. 1109 / ICCV. 2017. 348]

[28] Wang Q Q,Zhou X W,Daniilidis K. Multi-image semantic matching by mining consistent features[C]/ /Proceedings of 2018 IEEE /CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT: IEEE,2018: 685-694. [DOI: 10. 1109 /CVPR. 2018. 00078]

[29] Yu D D,Yang F,Yang C Y,et al. Fast rotation-free featurebased image registration using improved N-SIFT and GMM-based parallel optimization[J]. IEEE Transactions on Biomedical Engineering,2016,63 ( 8) : 1653-1664. [DOI: 10. 1109 /TBME. 2015. 2465855]

[30] Pock T,Urschler M,Zach C,et al. A duality based algorithm for TV - L1 - optical-flow image registration[C]/ /Proceedings of the 10th International Conference on Medical Image Computing and Computer-Assisted Intervention. Brisbane,Australia: Springer, 2007: 511-518. [DOI: 10. 1007 /978-3-540-75759-7_62]

[31] Zhang G M,Sun X X,Liu J X,et al. Research on TV-L1 optical flow model for image registration based on fractional-order differentiation[J]. Acta Automatica Sinica,2017,43 ( 12) : 2213- 2224. [張桂梅,孫曉旭,劉建新,等. 基於分數階微分的 TV-L1光流 模 型 的 圖 像 配 準 方 法 研 究[J]. 自 動 化 學 報, 2017,43 ( 12 ) : 2213-2224.][DOI: 0. 16383 /j. aas. 2017. c160367]

[32] Lu X S,Tu S X,Zhang S. A metric method using multidimensional features for nonrigid registration of medical images[J]. Acta Automatica Sinica,2016,42( 9) : 1413-1420. [陸雪松, 塗聖賢,張素. 一種面向醫學影象非剛性配準的多維特徵度 量方法[J]. 自動化學報,2016,42( 9) : 1413-1420.][DOI: 10. 16383 /j. aas. 2016. c150608]

[33] Yang W,Zhong L M,Chen Y,et al. Predicting CT image from MRI data through feature matching with learned nonlinear local descriptors[J]. IEEE Transactions on Medical Imaging,2018, 37( 4) : 977-987. [DOI: 10. 1109 /TMI. 2018. 2790962]

[34] Cao X H,Yang J H,Gao Y Z,et al. Region-adaptive deformable registration of CT /MRI pelvic images via learning-based image synthesis[J]. IEEE Transactions on Image Processing, 2018,27 ( 7 ) : 3500-3512. [DOI: 10. 1109 /TIP. 2018. 2820424]

[35] He M M,Guo Q,Li A,et al. Automatic fast feature-level image registration for high-resolution remote sensing images[J]. Journal of Remote Sensing,2018,22( 2) : 277-292. [何夢夢,郭擎, 李安,等. 特徵級高解析度遙感影象快速自動配準[J]. 遙 感 學 報,2018,22 ( 2 ) : 277-292.] [DOI: 10. 11834 /jrs. 20186420]

[36] Fischler M A,Bolles R C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM,1981, 24( 6) : 381-395. [DOI: 10. 1145 /358669. 358692]

[37] Torr P H S,Zisserman A. MLESAC: a new robust estimator with application to estimating image geometry[J]. Computer Vision and Image Understanding,2000,78( 1) : 138-156. [DOI: 10. 1006 /cviu. 1999. 0832]

[38] Li X R,Hu Z Y. Rejecting mismatches by correspondence function[J]. International Journal of Computer Vision,2010, 89( 1) : 1-17. [DOI: 10. 1007 / s11263-010-0318-x]

[39] Liu H R,Yan S C. Common visual pattern discovery via spatially coherent correspondences[C]/ /Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco,CA: IEEE,2010: 1609-1616. [DOI: 10. 1109 /CVPR. 2010. 5539780]

[40] Liu H R,Yan S C. Robust graph mode seeking by graph shift [C]/ /Proceedings of the 27th International Conference on International Conference on Machine Learning. Haifa,Israel: ACM, 2010: 671-678.

[41] Lin W Y D,Cheng M M,Lu J B,et al. Bilateral functions for global motion modeling[C]/ /Proceedings of the 13th European Conference on Computer Vision. Zurich,Switzerland: Springer, 2014: 341-356. [DOI: 10. 1007 /978-3-319-10593-2_23]

[42] Bian J W,Lin W Y,Matsushita Y,et al. GMS: grid-based motion statistics for fast,ultra-robust feature correspondence[C]/ / Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI: IEEE,2017: 2828-2837. [DOI: 10. 1109 /CVPR. 2017. 302]

[43] Chen F J,Han J,Wang Z W,et al. Image registration algorithm based on improved GMS and weighted projection transformation [J]. Laser & Optoelectronics Progress,2018,55 ( 11 ) : 111006. [陳方傑,韓軍,王祖武,等. 基於改進 GMS 和加權 投影變換的影象配准算法[J]. 鐳射與光電子學進展,2018, 55( 11) : 111006.]

[44] Ma J Y,Zhao J,Tian J W,et al. Robust point matching via vector field consensus[J]. IEEE Transactions on Image Processing, 2014,23 ( 4 ) : 1706-1721. [DOI: 10. 1109 /TIP. 2014. 2307478]

[45] Aronszajn N. Theory of reproducing kernels[J]. Transactions of the American Mathematical Society,1950,68 ( 3 ) : 337-404. [DOI: 10. 2307 /1990404]

[46] Charles R Q,Su H,Mo K,et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]/ /Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI: IEEE,2017: 77-85. [DOI: 10. 1109 /CVPR. 2017. 16]

[47] Qi C R,Yi L,Su H,et al. PointNet + + : deep hierarchical feature learning on point sets in a metric space[C]/ /Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach,CA: ACM,2017.

[48] Deng H W,Birdal T,Ilic S. PPFNet: global context aware local features for robust 3D point matching[C]/ /Proceedings of 2018 IEEE /CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT: IEEE,2018. [DOI: 10. 1109 / CVPR. 2018. 00028]

[49] Zhou L,Zhu S Y,Luo Z X,et al. Learning and matching multiview descriptors for registration of point clouds[C]/ /Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer,2018. [DOI: 10. 1007 /978-3-030-01267-0 _31]

[50] Wang H Y,Guo J W,Yan D M,et al. Learning 3D keypoint descriptors for non-rigid shape matching[C]/ /Proceedings of the 15th European Conference on Computer Vision. Munich,Germany: Springer,2018. [doi: 10. 1007 /978-3-030-01237-3_1]

[51] Georgakis G,Karanam S,Wu Z Y,et al. End-to-end learning of keypoint detector and descriptor for pose invariant 3D matching [C]/ /Proceedings of 2018 IEEE /CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT: IEEE, 2018. [DOI: 10. 1109 /CVPR. 2018. 00210]

[52] Ren S Q,He K M,Girshick R,et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39 ( 6 ) : 1137-1149. [DOI: 10. 1109 /TPAMI. 2016. 2577031]

[53] Wang Z H,Wu F C,Hu Z Y. MSLD: a robust descriptor for line matching[J]. Pattern Recognition,2009,42 ( 5 ) : 941- 953. [DOI: 10. 1016 /j. patcog. 2008. 08. 035]

[54] Wang J X,Zhang X,Zhu H,et al. MSLD descriptor combined regional affine transformation and straight line matching[J]. Journal of Signal Processing,2018,34 ( 2 ) : 183-191. [王競 雪,張雪,硃紅,等. 結合區域仿射變換的 MSLD 描述子與 直線段匹配[J]. 訊號處理,2018,34( 2) : 183-191.][DOI: 10. 16798 /j. issn. 1003-0530. 2018. 02. 008]

[55] Zhang L L,Koch R. An efficient and robust line segment matching approach based on LBD descriptor and pairwise geometric consistency[J]. Journal of Visual Communication and Image Representation,2013,24 ( 7 ) : 794-805. [DOI: 10. 1016 /j. jvcir. 2013. 05. 006]

[56] Wang L,Neumann U,You S Y. Wide-baseline image matching using line signatures[C]/ /Proceedings of the 12th International Conference on Computer Vision. Kyoto,Japan: IEEE,2009: 1311-1318. [DOI: 10. 1109 / ICCV. 2009. 5459316]

[57] López J,Santos R,Fdez-Vidal X R,et al. Two-view line matching algorithm based on context and appearance in low-textured images[J]. Pattern Recognition,2015,48 ( 7 ) : 2164-2184. [DOI: 10. 1016 /j. patcog. 2014. 11. 018]

[58] Fan B,Wu F C,Hu Z Y. Line matching leveraged by point correspondences[C]/ /Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco,CA: IEEE,2010: 390-397. [DOI: 10. 1109 / CVPR. 2010. 5540186]

[59] Fan B,Wu F C,Hu Z Y. Robust line matching through line-point invariants[J]. Pattern Recognition,2012,45 ( 2) : 794- 805. [DOI: 10. 1016 /j. patcog. 2011. 08. 004]

[60] Lourakis M I A,Halkidis S T,Orphanoudakis S C. Matching disparate views of planar surfaces using projective invariants[J]. Image and Vision Computing,2000,18 ( 9) : 673-683. [DOI: 10. 1016 / S0262-8856( 99) 00071-2]

[61] Jia Q,Gao X K,Fan X,et al. Novel coplanar line-points invariants for robust line matching across views[C]/ /Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer,2016: 599-611. [DOI: 10. 1007 / 978-3-319-46484-8_36]

[62] Luo Z X,Zhou X C,Gu D X. From a projective invariant to some new properties of algebraic hypersurfaces[J]. Science China Mathematics,2014,57( 11) : 2273-2284. [DOI: 10. 1007 / s11425-014-4877-0]

[63] Ouyang H,Fan D Z,Ji S,et al. Line matching based on discrete description and conjugate point constraint[J]. Acta Geodaetica et Cartographica Sinica,2018,47 ( 10 ) : 1363-1371. [歐陽歡,範大昭,紀松,等. 結合離散化描述與同名點約束 的線特徵匹配[J]. 測繪學報,2018,47( 10) : 1363-1371.] [DOI: 10. 11947 /j. AGCS. 2018. 20170231]

[64] Matas J,Chum O,Urban M,et al. Robust wide baseline stereo from maximally stable extremal regions[C]/ /Proceedings of the 13th British Machine Vision Conference. Cardiff: BMVC,2002: 1041-1044.

[65] Nistér D,Stewénius H. Linear time maximally stable extremal regions[C]/ /Proceedings of the 10th European Conference on Computer Vision. Marseille,France: Springer,2008: 183-196. [DOI: 10. 1007 /978-3-540-88688-4_14]

[66] Elnemr H A. Combining SURF and MSER along with color features for image retrieval system based on bag of visual words[J]. Journal of Computer Science,2016,12 ( 4) : 213-222. [DOI: 10. 3844 /jcssp. 2016. 213. 222]

[67] Mo H Y,Wang Z P. A feature detection method combined MSER and SIFT[J]. Journal of Donghua University: Natural Science, 2011,37( 5) : 624-628. [莫會宇,王祝萍. 一種結合 MSER 與 SIFT 運算元的特徵檢測方法[J]. 東華大學學報: 自然科學 版,2011,37 ( 5) : 624-628.][DOI: 10. 3969 /j. issn. 1671- 0444. 2011. 05. 017]

[68] Xu Y C,Monasse P,Géraud T,et al. Tree-based Morse regions: a topological approach to local feature detection[J]. IEEE Transactions on Image Processing,2014,23( 12) : 5612-5625. [DOI: 10. 1109 /TIP. 2014. 2364127]

[69] Korman S,Reichman D,Tsur G,et al. FasT-Match: fast affine template matching[C]/ /Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland,OR: IEEE,2013: 2331-2338. [DOI: 10. 1109 /CVPR. 2013. 302]

[70] Jia D,Cao J,Song W D,et al. Colour FAST ( CFAST) match: fast affine template matching for colour images[J]. Electronics Letters,2016,52( 14) : 1220-1221. [DOI: 10. 1049 /el. 2016. 1331]

[71] Jia D,Yang N H,Sun J G. Template selection and matching algorithm for image matching[J]. Journal of Image and Graphics, 2017,22( 11) : 1512-1520. [賈迪,楊寧華,孫勁光. 像對匹 配的模 板 選 擇 與 匹 配[J]. 中國圖象圖形學報,2017, 22( 11) : 1512-1520.][DOI: 10. 11834 /jig. 170156]

[72] Dekel T,Oron S,Rubinstein M,et al. Best-buddies similarity for robust template matching[C]/ /Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE,2015: 2021-2029. [DOI: 10. 1109 /CVPR. 2015. 7298813]

[73] Oron S,Dekel T,Xue T F,et al. Best-buddies similarity—robust template matching using mutual nearest neighbors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018,40 ( 8 ) : 1799-1813. [DOI: 10. 1109 /TPAMI. 2017. 2737424]

[74] Wang G,Sun X L,Shang Y,et al. A robust template matching algorithm based on best-buddies similarity[J]. Acta Optica Sinica,2017,37( 3) : 274-280. [王剛,孫曉亮,尚洋,等. 一種 基於最佳相似點對的穩健模板匹配演算法[J]. 光 學 學 報, 2017, 37 ( 3 ) : 274-280.] [DOI: 10. 3788 /aos201737. 0315003]

[75] Talmi I,Mechrez R,Zelnik-Manor L. Template matching with deformable diversity similarity[C]/ /Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI: IEEE,2017: 1311-1319. [DOI: 10. 1109 /CVPR. 2017. 144]

[76] Talker L,Moses Y,Shimshoni I. Efficient sliding window computation for NN-based template matching[C]/ /Proceedings of the 15th European Conference on Computer Vision. Munich,Germany: Springer,2018: 409-424. [DOI: 10. 1007 /978-3-030- 01249-6_25]

[77] Korman S,Soatto S,Milam M. OATM: occlusion aware template matching by consensus set maximization[C]/ /Proceedings of 2018 IEEE /CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT: IEEE,2018. [DOI: 10. 1109 /CVPR. 2018. 00283]

[78] Kat R,Jevnisek R J,Avidan S. Matching pixels using co-occurrence statistics[C]/ /Proceedings of 2018 IEEE /CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE,2018. [DOI: 10. 1109 /CVPR. 2018. 00188]

[79] Han X F,Leung T,Jia Y Q,et al. MatchNet: unifying feature and metric learning for patch-based matching[C]/ /Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA: IEEE,2015: 3279-3286. [DOI: 10. 1109 /CVPR. 2015. 7298948]

[80] Zagoruyko S,Komodakis N. Learning to compare image patches via convolutional neural networks[C]/ /Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston,MA: IEEE,2015: 4353-4361. [DOI: 10. 1109 / CVPR. 2015. 7299064]

[81] Fan D Z,Dong Y,Zhang Y S. Satellite image matching method based on deep convolution neural network[J]. Acta Geodaetica et Cartographica Sinica,2018,47( 6) : 844-853. [範大昭,董 楊,張永生. 衛星影像匹配的深度卷積神經網路方法[J]. 測繪 學 報,2018,47 ( 6 ) : 844-853.] [DOI: 10. 11947 /j. AGCS. 2018. 20170627]

[82] Balntas V,Johns E,Tang L L,et al. PN-Net: conjoined triple deep network for learning local image descriptors[EB /OL]. [2018-08-09]https: / /arxiv. org / pdf /1601. 05030. pdf.

[83] Yang T Y,Hsu J H,Lin Y Y,et al. DeepCD: learning deep complementary descriptors for patch representations[C]/ /Proceedings of 2017 IEEE International Conference on Computer Vision. Venice,Italy: IEEE,2017: 3334-3342. [DOI: 10. 1109 / ICCV. 2017. 359]

[84] Tian Y R,Fan B,Wu F C. L2-Net: deep learning of discriminative patch descriptor in Euclidean space[C]/ /Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI: IEEE,2017: 6128-6136. [DOI: 10. 1109 /CVPR. 2017. 649]。

知乎連結:https://zhuanlan。zhihu。com/p/108858079

整理自:

編輯:黃繼彥