選單

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

機器之心專欄

機器之心編輯部

圖靈獎得主 Yoshua Bengio 和 Yann LeCun 在 2020 年的 ICLR 大會上指出,自監督學習有望使 AI 產生類人的推理能力。該觀點為未來 AI 領域指明瞭新的研究方向——自監督學習是一種不再依賴標註,而是透過揭示資料各部分之間關係,從資料中生成標籤的新學習正規化。

近年來,自監督學習逐漸廣泛應用於計算機視覺、自然語言處理等領域。隨著該技術的蓬勃發展,自監督學習在圖機器學習和圖神經網路上的應用也逐漸廣泛起來,圖自監督學習成為了圖深度學習領域的新發展趨勢。

本文是來自澳大利亞蒙納士大學(Monash University)圖機器學習團隊聯合中科院、聯邦大學,以及資料科學權威 Philip S。 Yu 對圖自監督學習領域的最新綜述,從研究背景、學習框架、方法分類、研究資源、實際應用、未來的研究方向的方面,為圖自監督學習領域描繪出一幅宏偉而全面的藍圖。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

全文連結:https://arxiv。org/pdf/2103。00111。pdf

1. 緒論

近年來,圖深度學習廣泛應用於電子商務、交通流量預測、化學分子研究和知識庫等領域。然而,大多數工作都關注在(半)監督學習的學習模式中,這種學習模式主要依賴標籤資訊對模型進行訓練,導致了深度學習模型獲取標籤成本高、泛化能力能力不佳、魯棒性差等侷限性。

自監督學習是一種減輕對標籤資料的依賴,從而解決上述問題的新手段。具體地,自監督學習透過解決一系列輔助任務(稱為 pretext task,代理任務)來進行模型的學習,這樣監督訊號可以從資料中自動獲取,而無需人工標註的標籤來對模型進行監督訓練。

自監督學習目前已經被廣泛應用於計算機視覺(CV)和自然語言處理(NLP)等領域,具體技術包括詞嵌入、大規模語言預訓練模型、影象的對比學習等。然而,與 CV/NLP 領域不同,由於圖資料處於不規則的非歐幾里得空間,其具有獨特的特點,包括:1)需要同時考慮特徵資訊與不規則的拓撲結構資訊;2)由於圖結構的存在,資料樣本(節點)間往往存在依賴關係。因此,圖領域的自監督學習(graph self-supervised learning)無法直接遷移 CV/NLP 領域的代理任務設計,從而為圖自監督學習帶來了獨有的概念定義和分類方法。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

不同領域的自監督代理任務對比

圖自監督學習的歷史最早可追溯到經典的圖嵌入方法,包括 DeepWalk、Line 等,而經典的圖自編碼器(GAE)模型也可被視為一種圖自監督學習。自 2019 年以來,一系列新工作席捲了圖自監督學習領域,涉及到的技術包括但不限於對比學習、圖性質預測、圖生成學習等。然而,目前缺少系統性的分類法對這些方法進行歸類,同時該技術相關的框架與應用也沒有得到規範化的統計與調查。

為了填補這一空缺,本文對圖自監督學習領域相關工作做了綜合、全面、實時的綜述。本文的主要貢獻有:1)以數學語言統一了的圖自監督學習框架,並提供了系統的分類法;2)對現有方法進行了綜合且實時更新的整理;3)統計了相關的研究資源和應用場景;4)指出了未來潛在的研究方向。

2. 核心詞條與概念定義

為了便於讀者理解,本文提供了以下核心詞條的定義辨析:

人工標籤 vs 偽標籤:人工標籤指需要人類專家或工作者手動標註的標籤資料;偽標籤指機器可以從資料中自動獲取的標籤資料。通常,自監督學習中不會依賴人工標籤,而是依賴偽標籤來進行學習。

下游任務 vs 代理任務:下游任務指具體用於衡量所學習表徵和模型效能的圖分析任務,比如節點分類、圖分類等;代理任務指專門設計的、用於幫助模型無監督地學習更優表徵從而在下游任務上取得更高效能的輔助任務。代理任務一般採用偽標籤進行訓練。

監督學習、無監督學習與自監督學習:監督學習指透過人工標籤來訓練機器學習模型的學習正規化,而無監督學習是一種無需人工標籤來學習的學習正規化。作為無監督學習的子類,自監督學習指從資料本身獲取監督訊號的學習正規化,在自監督學習中,模型由代理任務進行訓練,從而在下游任務重獲取更好的效能和更佳的泛化性。

本文主要研究圖資料。圖由節點集合和邊集合構成,其中節點的個數計為 n,邊的個數計為 m。圖的拓撲結構一般用 n*n 的鄰接矩陣 A 來表示,A_ij=1 表示節點 i 和節點 j 之間存在連線關係,A_ij=0 則表示二者無連線關係。對於屬性圖,存在一個特徵矩陣 X 來包含每個點和每條邊的特徵向量。

對於大部分圖自監督學習方法,圖神經網路(GNN)作為編碼器而存在。GNN 輸入鄰接矩陣 A 和特徵矩陣 X,透過可學習的神經網路引數,生成低維的表徵矩陣 H,其中每一行為對應節點的表徵向量。對於圖級別的任務,一般採用讀出函式 R 將節點表徵矩陣聚合為一個圖表徵向量,從而進行圖級別的屬性學習。

3. 圖自監督學習框架與分類

本文用編碼器 - 解碼器(encoder-decoder)框架來規範化圖自監督學習。其中編碼器 f 的輸入是原始圖資料(A,X),輸出為低維表徵 H;代理解碼器 p 以表徵 H 為輸入,輸出代理任務相關的資訊。在此框架下,圖自監督學習可以表示為:

其中 D 為相關的圖資料分佈,L_ssl 為代理任務相關的損失函式。

利用訓練好的編碼器 f,所生成的表徵 H 被進一步用於下游任務的學習當中。透過引入下游解碼器 q,下游任務的學習可表示為:

其中 L_sup 為下游任務相關的損失函式,y 為相關的人工標籤。

在此框架下,本文透過以下幾個維度進行分類:1)透過進一步細分公式 (1) 中的代理解碼器 p 和損失函式 L_ssl,對圖自監督學習方法進行分類;2)透過進一步細分代理任務和下游任務的關係,對三種自監督學習模式進行分類;3)透過進一步細分公式 (2) 中的下游解碼器 q 和損失函式 L_sup,對下游任務進行分類。

本文將圖自監督學習方法分為 4 個類別:基於生成的圖自監督學習方法,基於屬性的圖自監督學習方法,基於對比的圖自監督學習方法,以及混合型方法。其中,基於生成的方法(generation-based method)主要將重構圖的特徵資訊或結構資訊作為代理任務,實現自監督學習;基於屬性的方法(Auxiliary Property-based method)透過預測一些可以自動獲取的圖相關的屬性,來進行模型的訓練;基於對比的方法(Contrast-based method)則是透過最大化同一樣本的兩個增廣實體之間的互資訊來進行學習;最後,混合型方法(Hybrid method)透過組合不同的上述幾種代理任務,採用多工學習的模式進行自監督學習。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

4 種圖自監督學習方法分類

基於代理任務和下游任務之間的不同關係,自監督學習的模式分為以下 3 類:預訓練 - 微調(Pre-training and Fine-tuning,PF)、聯合學習(Joint Learning,JL)以及無監督表徵學習(Unsupervised Representation Learning)。其中,PF 首先採用代理任務對編碼器進行預訓練,然後採用下游任務對編碼器進行微調;JL 則是採用多工學習的方式,同時利用代理任務和下游任務對編碼器進行訓練;URL 首先無監督地對編碼器用代理任務進行訓練,然後直接用得到的表徵 H 來訓練下游任務的解碼器。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

3 種自監督學習模式分類

下游任務的分類則涉及了大多數圖機器學習相關的傳統任務,根據其資料樣本的尺度不同,本文將下游任務分類為節點級別任務(如節點分類),邊級別任務(如邊分類)和圖級別任務(如圖分類)。

4. 圖自監督學習相關工作彙總

根據上述對圖自監督學習方法的分類方式,本文對相關工作進行了整理、分類與彙總,分類樹如下圖所示。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

分類樹

A.基於生成的圖自監督學習方法

基於生成的方法主要透過重構輸入資料以獲取監督訊號。根據重構的物件不同,本文將該類方法進一步細分為兩個子類:特徵生成和結構生成。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

基於生成的圖自監督學習

特徵生成方法透過代理解碼器對特徵矩陣進行重構。模型的輸入為原始圖或者經過擾動的圖資料,而重構物件可以是節點特徵矩陣,邊特徵矩陣,或者經過 PCA 降維的特徵矩陣等。對應的自監督損失函式一般為均方誤差(MSE)。比較有代表性的方法為 Graph Completion,該方法對一些節點的特徵進行遮蓋,其代理任務的學習目標為重構這些被遮蓋的節點特徵。

結構生成方法起源於經典的圖自編碼器(GAE),一般採用基於表徵相似度的解碼器對圖的鄰接矩陣 A 進行重構。由於鄰接矩陣的二值性,對應的損失函式一般為二分類交叉熵(BCE);而由於鄰接矩陣的稀疏性,一般採用負取樣等手段實現類別平衡。

本文對現有的基於生成的圖自監督學習方法進行了總結,如下表所示:

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

B.基於屬性的圖自監督學習方法

基於屬性的方法從圖中自動獲取一些有用的屬性資訊,以此作為監督訊號對模型進行訓練。這類方法在形式上與監督學習比較類似,都是採用 “樣本 - 標籤” 的資料模式進行學習,其區別在於這裡的 “標籤” 資訊為偽標籤,而監督學習所用的為人工標籤。根據監督學習的分類模式,本文將該類方法細分為兩個子類:屬性分類和屬性迴歸。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

基於屬性的圖自監督學習

屬性分類方法自動地從資料中歸納出離散的屬性作為偽標籤,作為代理任務的學習目標供模型學習,對應的損失函式一般為交叉熵。透過獲取偽標籤的手段不同,該類方法可進一步分為:1)基於聚類的屬性分類:2)基於點對關係的屬性分類。前者採用基於特徵或結構的聚類演算法的對節點賦予偽標籤,而後者則是透過兩個點之間的關係得到一個點對的偽標籤。

屬性迴歸方法從資料中獲取連續的屬性作為偽標籤,對應的損失函式為均方誤差(MSE)。一個典型的例子是提取節點的度(degree)作為其屬性,透過代理編碼器對該特性進行迴歸,實現對模型的自監督訓練。

該類別方法的總結如下表所示:

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

C.基於對比的圖自監督學習方法

基於對比的方法引入了互資訊最大化的概念,透過預測兩個視角(view)之間的相容性來進行自監督學習。本文從三個角度對該類方法進行整理,分別是:1)圖增廣方式;2)圖對比學習代理任務;3)互資訊估計方式。

圖增廣技術用於從原始資料生成出增廣資料,從而構成對比學習中不同的視角。圖增廣方法有特徵增廣、結構增廣、混合增廣。特徵增廣主要對圖資料中的特徵資訊進行變換,最常見的手段是節點特徵遮蓋(NFM),即隨機的將圖中的一些特徵量置為 0;此外,節點特徵亂序(NFS)也是一種特徵增廣方法,其手段為對調不同節點的特徵向量。結構增廣的手段是對圖結構資訊進行變換,常見的結構增廣為邊修改(EM),包括對邊的增加和刪除;另一種結構增廣為圖彌散(Graph diffusion,GD),其對不同階的鄰接矩陣進行加權求和,從而獲取更全域性的結構資訊。混合增廣則結合了上述兩種增廣形式,一個典型的手段為子圖取樣(SS),即從原圖資料中取樣子結構成為增廣樣本。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

圖增廣方法

對於對比式的代理任務,本文透過其對比樣本的尺度進行進一步細分為同尺度對比學習和跨尺度對比學習。其中,同尺度對比學習透過最大化同一節點樣本或者同一圖樣本在不同視角下的互資訊來進行自監督學習,此類方法包括早期的基於隨機遊走的圖嵌入方法,以及一系列 CV 對比學習框架(如 SimCLR 和 MoCo)在圖領域的應用方法。跨尺度對比學習透過最大化 “節點樣本 vs 全域性樣本” 或者 “節點樣本 vs 鄰居樣本” 之間的互資訊來學習,這類方法起源於 Petar 等人與 2019 年提出的 DGI,目前在異質圖、動態圖等資料上均有應用。

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

基於對比的圖自監督學習

由於對比學習涉及到對互資訊的估計,本文也從數學層面總結了幾種互資訊估計方法,包括經典的 Jensen-Shannon 散度,InfoNCE,Triplet loss function,以及前沿的 BYOL 以及 Barlow twins。

基於對比的圖自監督學習方法總結見下表:

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

D.混合型圖自監督學習方法

混合型方法結合了兩種或多種不同的代理任務,以多工學習的模式共同訓練模型。常見的組合包括:結合兩種生成任務(特徵生成 + 結構生成)的混合方法,結合生成任務和對比任務的混合方法,結合多種對比任務的混合方法,以及三種任務共同參與的混合方法。混合型方法的總結如下表所示:

資料探勘領域大師俞士綸團隊新作:最新圖自監督學習綜述

5. 研究資源與實際應用

在附錄內容當中,本文統計了圖自監督學習相關的各種研究資源,包括:主流的資料集,常用的評估手段,不同方法的效能對比,以及各方法對開原始碼總結。這些資訊可以更好的幫助研究人員瞭解、對比和復現現有工作。

本文總結了圖自監督學習在三個領域的實際應用,包括:推薦系統,異常檢測,以及化學領域。此外,更多應用類工作也被總結在附錄當中,涉及到的領域包括程式修復、醫療、聯邦學習等。

6. 未來的研究方向

針對潛在的研究熱點,本文分析了圖自監督學習中存在的挑戰,並指出了一些旨在解決這些挑戰的未來研究方向。

A. 理論基礎

雖然圖自監督學習在各種任務和資料集上都取得較好的效能,但其依然缺乏堅實的理論基礎以證明其有效性,因為大多數工作都只是經驗性地設計其代理任務,且僅採用實驗手段進行評價。目前僅有的理論支援來自互資訊最大化,但互資訊的評估依然依賴於經驗方法。我們認為,圖自監督學習亟需與圖理論相關的研究,潛在的理論基礎包括圖訊號處理和譜圖理論。

B. 可解釋性與魯棒性

許多圖自監督學習的工作應用於風險敏感性和隱私相關的領域,因此,可解釋且魯棒的自監督框架對於適應此類學習場景具有重要意義。但是,現有工作只將下游任務效能視為其目標,而忽略了學習表示和預測結果的可解釋性。此外,考慮到真實資料的不完整性以及圖神經網路易受對抗攻擊的特點,我們應當考慮圖自監督學習的魯棒性;然而,除個別工作外,現有的圖自監督學習方法均假定輸入資料是完美的。因此,探索可解釋的、魯棒的圖自監督方法是一個未來的潛在方向。

C. 複雜型別圖的代理任務設計

當前的大多數工作集中於屬性圖的自監督學習,只有少數工作集中於複雜的圖型別,例如異質或時空圖。對於複雜圖,主要的挑戰是如何設計代理任務來捕獲這些複雜圖的獨特資料特徵。現有的一些方法將互資訊最大化的思想應用於複雜圖的學習,其學習能力比較有限。因此,一個潛在方向是為複雜的圖資料設計多種多樣的代理任務,這些任務應適應其特定的資料特徵。此外,將自監督技術擴充套件到更普遍的圖型別(例如超圖)將是一個可行的方向,值得進一步探索。

D. 圖對比學習的增廣方法

在 CV 的對比學習中,大量的資料增廣策略(包括旋轉、顏色扭曲、裁剪等)提供了不同的視角,從而支援了對比學習中的表徵不變性。然而,由於圖結構資料的性質(複雜和非歐幾里德結構),圖上的資料增廣方案沒有得到很好的探索。現有的圖增廣策略大多采用隨機的遮蓋 / 亂序節點特徵、邊修改、子圖取樣和圖擴散等手段,這在生成多個圖視角時無法提供豐富的多樣性,同時其表徵不變性也是不確定的。為了解決這個問題,自適應地執行圖形增廣,自動選擇增廣,或透過挖掘豐富的底層結構和屬性資訊聯合考慮更強的增廣樣本都將是未來潛在的研究方向。

E. 透過多代理任務學習

本文統計的大部分方法僅透過解決一個代理任務來訓練模型,只有少數混合方法探索多個代理任務的組合。然而,不少 NLP 領域的與訓練模型和本文所彙總的少數混合方法都說明了:不同的代理任務可以從不同的角度提供監督訊號,這更有助於圖自監督方法學習到有用的資訊表徵。因此,對多種代理任務的自適應組合,以及更先進的混合方法值得進一步研究。

F. 更廣泛的應用

圖是許多領域中普遍存在的資料結構;然而,在大多數應用領域,獲取手動標籤的成本往往很高。在這種情況下,圖自監督學習具有很好的前景,特別是那些高度依賴專業知識來標註資料的領域。然而,大多數現有的圖自監督學習的實際應用僅集中在少數幾個領域(推薦系統、異常檢測和化學),這表明圖自監督在大多數應用領域具有未開發的潛力。我們有望將圖自監督學習擴充套件到更廣闊的應用領域,例如,金融網路、網路安全、社群檢測和聯邦學習等。

與吳恩達共話ML未來發展,2021亞馬遜雲科技中國峰會可「玩」可「學」

2021亞馬遜雲科技中國峰會「第二站」將於

9月9日-9月14日全程在線上舉辦

。對於AI開發者來說,9月14日舉辦的「人工智慧和機器學習峰會」最值得關注。

當天上午,亞馬遜雲科技人工智慧與機器學習副總裁Swami Sivasubramanian 博士與 AI 領域著名學者、Landing AI 創始人吳恩達(Andrew Ng )博士展開一場「爐邊談話」。

不僅如此,「人工智慧和機器學習峰會」還設定了四大分論壇,分別為「機器學習科學」、「機器學習的影響」、「無需依賴專業知識的機器學習實踐」和「機器學習如何落地」,從技術原理、實際場景中的應用落地以及對行業領域的影響等多個方面詳細闡述了機器學習的發展。