選單

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

選自arXiv

作者:Lingfei Wu等

機器之心編譯

編輯:Panda

在 Transformer 推動自然語言處理領域迅猛發展的當下,基於圖神經網路的 NLP 研究也不容忽視。在近日的一篇綜述論文中,來自京東矽谷研發中心、倫斯勒理工學院、浙江大學等機構和高校的研究者首次對用於 NLP 的圖神經網路(GNN)進行了全面綜述。其中涵蓋大量相關和有趣的主題,如用於 NLP 的自動圖構建、圖表示學習和各種先進的基於 GNN 的編碼器 - 解碼器模型以及各種 NLP 任務中的 GNN 應用。本文共同一作為吳凌飛(京東矽谷研發中心)與 Yu Chen(倫斯勒理工學院)。

7月8日,機器之心最新一期線上分享邀請到陳宇博士帶來本篇綜述的詳細解讀。詳情見文末。

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

論文地址:https://arxiv。org/pdf/2106。06090。pdf

在解決自然語言處理(NLP)領域的各式問題時,深度學習(DL)已經成為當今的主導方法,尤其是當操作大規模文字語料時。傳統的典型方法是將文字序列視為一組 token,比如 BoW(詞袋)和 TF-IDF。隨著近來詞嵌入技術的成功,NLP 任務通常會將句子表示成 token 序列。因此,迴圈神經網路(RNN)和卷積神經網路(CNN)等常用深度學習技術已經在文字序列建模方面得到了廣泛應用。

但是,對於大量各式各樣的 NLP 問題,圖結構才是最好的表示方式。舉個例子,使用文字序列中的句子結構資訊(比如依存關係和結構成本解析樹),可透過整合特定於當前任務的知識來為原始序列資料提供增補。類似地,序列資料中的語義資訊(比如摘要含義表示圖和資訊抽取圖等語義解析圖)也可用於增補原始序列資料。因此,這些圖結構的資料可以編碼實體 token 之間成對的關係,進而可用於學習資訊更豐富的表示。

遺憾的是,在歐幾里得資料(如影象)或序列資料(如文字)上具有顛覆效能力的深度學習技術卻無法直接應用於圖結構資料,這是因為圖資料比較複雜,涉及到結構不規則和節點近鄰資料大小不一致等情況。因此,這激起了圖深度學習的研究浪潮,尤其是圖神經網路的發展。

這波位於圖深度學習和 NLP 交集處的研究浪潮已經影響到了大量 NLP 任務。在開發不同的 GNN 變體以及將它們用於許多 NLP 任務(包括分類任務、關係抽取和生成任務)上,研究社群興趣濃厚並且已經取得了一些成功。儘管有這些成功的研究案例,但用於 NLP 的圖深度學習研究仍舊面臨著許多挑戰:

如何將原始文字序列資料自動轉換成高度結構化的圖結構資料?這是 NLP 領域的一個重大問題,因為大多數 NLP 任務使用的初始輸入都是文字序列。為了將圖神經網路用於 NLP 問題,一大關鍵步驟是基於文字序列來自動構建圖,進而利用其底層的結構資訊;

如何確定該使用哪種合適的表示學習技術?圖包括無向圖、有向圖、多關係圖和異構圖等不同形式,因此為了學習不同圖結構資料的特有特徵,使用針對具體情況專門設計的 GNN 是至關重要的;

如何有效地建模複雜資料?這是一個重要的挑戰,因為許多 NLP 任務都涉及到學習基於圖的輸入和其它高度結構化輸出資料(比如序列、樹以及不同型別的圖資料)之間的對映關係。

這篇綜述首次全面總結了用於自然語言處理的圖神經網路

。作者表示,這篇綜述對機器學習和 NLP 社群而言都是符合時宜的。其中涵蓋了廣泛的相關主題,包括用於 NLP 的自動圖構建、用於 NLP 的圖表示學習、用於 NLP 的基於各種高階 GNN 的編碼器 - 解碼器模型(如 graph2seq、graph2tree 和 graph2graph)以及 GNN 在各種不同 NLP 任務中的應用。

在篇幅長達 127 頁的論文中,研究者做出了以下主要貢獻:

文中為用於 NLP 的 GNN 提出了一種新的分類法,其沿圖構建、圖表示學習和基於圖的編碼器 - 解碼器模型三大主軸對當前相關研究進行了系統性的歸納組織;

本文為用於各種 NLP 任務的當前前沿的 GNN 方法進行了最全面的彙總。文章詳細地描述了基於領域知識和語義空間的各種圖構建方法、用於各種不同類別的圖結構資料的圖表示學習方法、使用不同輸入和輸出資料型別組合的基於 GNN 的編碼器 - 解碼器模型。文中也給出了必要的比較;

文中介紹了大量利用 GNN 的 NLP 應用,包括如何使用 GNN 在三大元件(圖構建、圖表示學習和嵌入初始化)中解決 NLP 任務並會提供對應的基準資料集、評估指標和開原始碼;

文章最後還列出了為 NLP 任務充分使用 GNN 方面的各種突出難題,另外還討論並建議了能產生豐富成果的未經探索的研究方向。

這篇綜述提出的分類法如下圖 1 所示,其對用於 NLP 的 GNN 進行了系統性的組織歸納並將其分為三大方向:

圖構建、圖表示學習和編碼器 - 解碼器模型

。另外也涵蓋相關應用。

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

圖 1:文章提出的分類方法。

下面將簡要介紹論文的核心內容框架,詳情請參閱原論文。

用於自然語言處理的基於圖的演算法

本節首先將立足於圖來介紹 NLP 問題,然後會簡要介紹在解決 NLP 問題方面一些代表性的傳統圖方法。

從圖的角度看待自然語言處理

我們表示自然語言的方式反映了自身看待自然語言的方法,也因此對我們處理和理解語言的方式有根本性的影響。一般來說,表示自然語言的方式有三種。

最簡單的方法是將自然語言表示成一組 token

。這種看待自然語言的方式完全忽視了 token 在文字中的特定位置,只考慮了不同 token 在文字中出現的次數。

一種更自然的方法是將自然語言表示成 token 序列

。這是人類通常講述和書寫自然語言的方式。

第三種方法是將自然語言表示成圖

。圖在 NLP 中無處不在。儘管將文字視為序列資料可能是最顯而易見的方式,但在 NLP 社群,將文字表示成各式各樣的圖是由來已久的操作。文字或世界知識的常見圖表示包括依存關係圖、結構成分圖、AMR 圖、IE 圖、詞彙網路和知識圖譜。此外,文字圖的元素也可以包含多個層級,比如文件、段落、句子和詞。

相比於前兩個角度,從這個角度看待自然語言能夠捕獲到更豐富的文字元素關係。很多傳統的基於圖的方法(比如隨機遊走、標籤傳播)已經在一些挑戰性的 NLP 問題上得到了成功應用,包括詞義消歧、名稱消歧、共指消解、情感分析和文字聚類。

用於自然語言處理的基於圖的方法

本節將介紹各種已成功應用於 NLP 應用的基於圖的經典演算法。

隨機遊走演算法

:隨機遊走這類基於圖的演算法會在圖中產生隨機路徑。在一次隨機遊走收斂之後,可得到圖中所有節點之上的一個平穩分佈;

圖聚類演算法

:常見的圖聚類演算法包括譜聚類、隨機遊走聚類和最小切割(min-cut)聚類;

圖匹配演算法

:圖匹配演算法的目標是計算兩個圖的相似度;

標籤傳播演算法

:標籤傳播演算法(LPA)是一種半監督的基於圖的演算法,其可將標籤從已標註的資料點傳播到之前未標註的資料點。

圖神經網路

圖神經網路(GNN)是一類直接基於圖結構資料運作的現代神經網路,本節將介紹 GNN 的基礎知識和基本方法。

基礎知識

圖神經網路本質上就是圖表示學習模型,可應用於以節點為中心的任務和以圖為中心的任務。GNN 可學習圖中每個節點的嵌入並將節點嵌入聚合起來得到圖嵌入。

圖過濾並不改變圖的結構,但會最佳化節點嵌入。可透過堆疊多層圖過濾層來生成最終的節點嵌入。

方法

圖過濾

:圖過濾器有多種實現方式,它們可大致分為基於譜的圖過濾器、基於空間的圖過濾器、基於注意力的圖過濾器和基於迴圈的圖過濾器。從概念上講,基於譜的圖過濾器基於譜圖論(spectral graph theory),而基於空間的方法會使用圖中空間上鄰近的節點來計算節點嵌入。某些基於譜的圖過濾器可以轉換成基於空間的圖過濾器。基於注意力的圖過濾器的靈感來自於自注意力機制,其會為不同的近鄰節點分配不同的權重。基於迴圈的圖過濾器會引入門控機制,模型引數在不同的 GNN 層共享。

圖池化

:圖池化層的設計目的是為以圖為中心的下游任務生成圖層面的表示,比如基於從圖過濾學習到的節點嵌入來執行圖分類和預測。這是因為所學習到的節點嵌入對以節點為中心的任務來說是足夠的,但是以圖為中心的任務則需要圖的整體表示。為此,我們需要歸納總結節點嵌入資訊和圖結構資訊。圖池化層可分為兩大類:平式圖池化(flat graph pooling)和分層式圖池化。平式圖池化會直接從節點嵌入一步到位地生成圖層面的表示。相對而言,分層式圖池化包含多個圖池化層,並且每個池化層都在一些疊放的圖過濾器之後。本節簡要介紹了一些代表性的平式池化層和分層式池化層。

用於自然語言處理的圖構建方法

前一節介紹了當輸入為圖時的 GNN 基礎知識和基本方法。不幸的是,對於大多數 NLP 任務而言,輸入一般並不是圖,而是文字序列。因此,為了利用 GNN,基於文字序列來構建用作輸入的圖就成了一個必需的步驟。本章將重點介紹兩大類用在各種 NLP 任務中構建圖結構輸入的圖構建方法,即

靜態圖構建和動態圖構建

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

表 2:兩種主要的圖構建方法:靜態和動態圖構建。

靜態圖構建

靜態圖構建方法的目標是在預處理階段構建圖結構,其通常使用的是已有的關係解析工具(比如依存關係解析)或人工定義的規則。從概念上講,靜態圖會整合隱藏在原始文字中的不同領域 / 外部知識,這能在原始文字的基礎上增補豐富的結構化資訊。

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

圖 6:相似度圖構建的一個示例。使用句子作為節點並使用 TF-IDF 向量來初始化它們的特徵。

動態圖構建

雖然靜態圖構建在將資料的先驗知識編碼進圖結構方面有優勢,但也存在一些侷限性。首先,為了構建表現合理的圖拓撲結構,需要大量人力和領域專業知識;其次,人工構建的圖結構可能很容易出錯(有噪聲或不完備);第三,由於圖構建階段和圖表示學習階段是分開的,所以在圖構建階段引入的誤差無法得到校正,並可能累積到後續階段,從而影響結果表現;最後,圖構建過程的資訊往往僅來自機器學習實踐者的想法,而它們對下游而言可能並不是最優的。

為了解決上述難題,最近有的 NLP GNN 探索了動態圖構建方法,這無需人類來提供領域專業知識。大多數動態圖構建方法的目標都是根據情況動態地學習圖結構(即加權的鄰接矩陣),並且圖構建模組可與後續的圖表示學習模組聯合最佳化,以端到端地方式解決下游任務。

如下圖 10 所示,動態圖建立方法通常包含一個圖相似度度量學習元件,其可根據嵌入空間中每對節點的相似度來學習一個鄰接矩陣;另外還有一個圖稀疏化元件,其可從所學習到的全連線圖提取一個稀疏圖。有研究發現,將本身固有的圖結構與學習到的隱含圖結構組合起來有助於實現更好的學習效果。此外,為了有效地聯合執行圖結構學習和表徵學習,研究社群也提出了多種學習正規化。

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

圖 10:動態圖構建的整體圖示。虛線(左側的資料點中)表示可選的本身固有的圖拓撲關係。

用於 NLP 的圖表示學習

本節將討論用於各種 NLP 任務的直接操作結構化圖的多種圖表示學習技術。圖表示學習的目標是透過機器學習模型找到將圖的結構和屬性資訊整合進低維嵌入中的方法。

一般而言,基於原始文字資料構建的圖要麼是同構的,要麼就是異構的。

用於同構圖的 GNN:GCN、GAT 和 GraphSage 等大多數圖神經網路都是為同構圖設計的,但是同構圖並不適用於很多 NLP 任務;

用於多關係圖的圖神經網路:在實踐中,許多圖的邊都有多種型別,比如知識圖譜、AMR 圖等,這樣的圖可以構建為多關係圖形式;

用於異構圖的圖神經網路:在實踐中,許多圖的節點和邊都有多種型別,這樣的圖被稱為異構圖。

基於 GNN 的編碼器 - 解碼器模型

在 NLP 領域,編碼器 - 解碼器架構是最常用的機器學習框架之一,比如 Seq2Seq 模型。由於 GNN 在建模圖結構資料方面能力非凡,近期在開發基於 GNN 的編碼器 - 解碼器框架方面出現了許多研究成果,包括圖到樹(Graph-to-Tree)模型和圖到圖(Graph-to-Graph)模型。本節首先將介紹典型的 Seq2Seq 模型,然後討論用於不同 NLP 任務的基於不同圖的編碼器 - 解碼器模型。包括如下:

序列到序列模型

圖到序列模型

圖到樹模型

圖到圖模型

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

圖 11:基於圖的編碼器 - 解碼器模型的整體架構,其中包含 Graph2Seq 和 Graph2Tree。S_1 和 S_2 等節點表示子樹節點,新的分支由此而生。

應用

這章將討論

使用 GNN 的許多不同型別的典型 NLP 應用,包括自然語言生成、機器閱讀理解、問答、對話系統、文字分類、文字匹配、主題建模、情感分類、知識圖譜、資訊抽取、語義和句法解析、推理和語義角色標註

。下表 3 總結了所有應用的子任務和評估指標。

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

表 3:使用 GNN 的典型 NLP 應用和相關研究工作。

常見挑戰和未來方向

本章將討論用於 NLP 的 GNN 的多種常見挑戰,並會指出未來的研究方向。

動態圖構建:即便動態圖構建方面已有一些研究成果,但 NLP 領域的大多數 GNN 應用仍舊嚴重依賴領域專業知識來構建靜態圖。用於 NLP 的動態圖構建仍舊處於早期探索階段,仍面臨著許多挑戰;

在 NLP 方面,GNN 與 Transformer 哪個更好:Transformer 憑藉其在許多 NLP 應用中的出色表現而贏得了遠遠更多的研究關注。由於兩類技術各自都有相較於彼此的明顯優勢,因此其中還有一些有趣的研究方向值得探究;

用於 NLP 的圖到圖模型:在為 NLP 任務使用圖到圖模型方面,還存在一些普遍性難題值得探索;

NLP 中的知識圖譜:知識圖譜已成為許多 NLP 任務的重要元件,但也存在許多挑戰,涉及知識圖譜增強、知識圖譜嵌入和完成以及知識圖譜對齊;

多關係圖神經網路:儘管進展頗豐,但由於圖中存在多式多樣的關係,因此解決超引數化問題仍舊是一大挑戰。

共同一作介紹

吳博士同時現任IEEE影響因子最高期刊之一IEEE Transactions on Neural Networks and Learning Systems(TNNLS) 和 ACM SIGKDD 旗艦期刊 ACM Transactions on Knowledge Discovery from Data (TKDD) 的副主編。多次組織和擔任國際頂級會議大會或者領域主席,如AAAI, IJCAI, KDD, NeurIPS, ICLR, ICML, ACL, EMNLP。

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

個人主頁:https://sites。google。com/a/email。wm。edu/teddy-lfwu/home

陳宇博士現任Facebook AI矽谷總部的研究科學家。陳博士在2020年從美國倫斯勒理工學院取得計算機科學博士學位,並獲校優秀博士學位論文獎及系優秀研究生獎。當前研究方向為機器學習和自然語言處理。其學術成果先後發表在NeurIPS, ICLR, IJCAI,NAACL,KDD等多個國際頂級會議上,並曾獲AAAI DLGMA’20最佳學生論文獎。其研究成果被國內外多家媒體報道,包括World Economic Forum, TechXplore等。

陳宇博士參與的DLG4NLP系列tutorial被NAACL’21,IJCAI’21,KDD’21,SIGIR’21等國際頂級會議錄用。陳博士多次擔任國際頂級會議(如ACL,EMNLP,NAACL,IJCAI)和期刊(如TNNLS,TKDE,TASL,IJIS)的程式委員會成員和審稿人。陳博士是4項美國專利的發明人。

首篇NLP領域圖神經網路綜述:127頁,從圖構建到實際應用面面觀

線上分享

北京時間7月8日19:00-20:00,論文共同一作陳宇博士將帶來線上分享:

基於圖深度學習的自然語言處理:方法與應用。

本次分享將從 NLP 圖構建、NLP圖表示學習、基於 GNN 的 Encoder-decoder 模型和 GNN 在 NLP 中的應用這四個維度對近年來圖深度學習在 NLP 中的研究進展進行梳理和總結。此外,陳宇博士還會介紹團隊開發的 GraphNLP,即首個針對 NLP 任務的 GNN 開源庫。