選單

提升PLM實體與關係理解,ERICA一個框架就夠了

機器之心專欄

作者:秦禹嘉

在這篇被 ACL 2021 主會錄用的文章中,研究者提出了 ERICA 框架,透過對比學習幫助 PLM 提高實體和實體間關係的理解,並在多個自然語言理解任務上驗證了該框架的有效性。

提升PLM實體與關係理解,ERICA一個框架就夠了

近年來,預訓練語言模型(PLM)在各種下游自然語言處理任務中表現出卓越的效能,受益於預訓練階段的自監督學習目標,PLM 可以有效地捕獲文字中的語法和語義,併為下游 NLP 任務提供蘊含豐富資訊的語言表示。然而,傳統的預訓練目標並沒有對文字中的關係事實進行建模,而這些關係事實對於文字理解至關重要。

提升PLM實體與關係理解,ERICA一個框架就夠了

論文連結:https://arxiv。org/abs/2012。15022

開源連結:https://github。com/thunlp/ERICA

問題背景

提升PLM實體與關係理解,ERICA一個框架就夠了

傳統的預訓練目標沒有對文字中的關係事實進行顯式建模,而這些關係事實對於理解文字至關重要。為了解決這個問題,一些研究人員試圖改進 PLM 的架構、預訓練任務等,以更好地理解實體之間的關係。但是它們通常只對文字中的句子級別的單個關係進行建模,不僅忽略了長文字場景下多個實體之間的複雜關係,也忽略了對實體本身的理解,例如圖1中所展現的,對於長文字來說,為了讓PLM更加充分理解地單個實體,我們需要考慮該實體和其他實體之間的複雜關係;而這些複雜的關係的理解通常涉及複雜的推理鏈,往往需要綜合多個句子的資訊得出結論。針對這兩個痛點,本文提出了實體區分任務和關係區分任務來增強PLM對於實體和實體間關係的理解。

文件級預訓練資料收集

提升PLM實體與關係理解,ERICA一個框架就夠了

ERICA的訓練依賴於大規模文件級遠端監督資料,該資料的構造有三個階段:首先從wikipedia中爬取文字段落,然後用命名實體識別工具(例如spacy)進行實體標註,將所有獲得的實體和wikidata中標註的實體對應上,並利用遠端監督(distant supervision)訊號獲得實體之間可能存在的關係,最終保留長度在128到512之間,含有多於4個實體,實體間多於4個遠端監督關係的段落。注意這些遠端監督的關係中存在大量的噪聲,而大規模的預訓練可以一定程度上實現降噪。作者也開源了由100萬個文件組成的大規模遠端監督預訓練資料。

實體與實體間關係的表示

提升PLM實體與關係理解,ERICA一個框架就夠了

鑑於每個實體可能在段落中出現多次,並且每次出現時對應的描述(mention)可能也不一樣,作者在使用PLM對tokenize後的段落進行編碼後,取每個描述的所有token均勻池化後的結果作為該描述的表示,接著對於全文中該實體所有的描述進行第二次均勻池化,得到該實體在該文件中的表示;對於兩個實體,它們之間的關係表示為兩個實體表示的簡單拼接。以上是最簡單的實體/實體間關係的表示方法,不需要引入額外的神經網路引數。作者在文中還探索了其它的表示方法,並驗證了所有方法相比baseline都有一致的提升。

實體區分任務

提升PLM實體與關係理解,ERICA一個框架就夠了

實體區分任務

實體區分任務旨在給定頭實體和關係,從當前文件中尋找正確的尾實體。例如在上圖中,Sinaloa和Mexico具有country的遠端關係,於是作者將關係country和頭實體Sinaloa拼接在原文件的前面作為提示(prompt),在此條件下區分正確的尾實體的任務可以在對比學習的框架下轉換成拉近頭實體和正確尾實體的實體表示的距離,推遠頭實體和文件中其它實體(負樣本)的實體表示的距離,具體的公式如下所示:

提升PLM實體與關係理解,ERICA一個框架就夠了

關係區分任務

提升PLM實體與關係理解,ERICA一個框架就夠了

關係區分任務

關係區分任務旨在區分兩個關係的表示在語義空間上的相近程度。由於作者採用文件級而非句子級的遠端監督,文件中的關係區分涉及複雜的推理鏈。具體而言,作者隨機取樣多個文件,並從每個文件中得到多個關係表示,這些關係可能只涉及句子級別的推理,也可能涉及跨句子的複雜推理。之後基於對比學習框架,根據遠端監督的標籤在關係空間中對不同的關係表示進行訓練,如前文所述,每個關係表示均由文件中的兩個實體表示構成。正樣本即具有相同遠端監督標籤的關係表示,負樣本與此相反。作者在實驗中還發現進一步引入不具有遠端監督關係的實體對作為負樣本可以進一步提升模型效果。由於進行對比訓練的兩個關係表示可能來自於多個文件,也可能來自於單個文件,因此文件間/跨文件的關係表示互動都得到了實現。巧妙的是,對於涉及複雜推理的關係,該方法不需要顯示地構建推理鏈,而是“強迫”模型理解這些關係並在頂層的關係語義空間中區分這些關係。具體的公式如下所示:

提升PLM實體與關係理解,ERICA一個框架就夠了

為了避免災難性遺忘,作者將上述兩個任務同masked language modeling (MLM)任務一起訓練,總的訓練目標如下所示:

實驗結果

ERICA的訓練不需要引入除了PLM之外的任何引數,並且對於任意模型均能夠適配,具體的,作者採用了兩個經典的PLM:BERT和RoBERTa,並對其進行一定時間的post-training,最後在文件級關係抽取、實體類別區分、問題回答等任務上進行了測試,並對比了例如CorefBERT, SpanBERT, ERNIE, MTB,CP等基線模型,驗證了ERICA框架的有效性。具體結果如下:

a) 文件級關係抽取,模型需要區分文件中的多個實體之間的關係,這需要PLM對實體間關係有較好的理解。

提升PLM實體與關係理解,ERICA一個框架就夠了

文件級關係抽取(DocRED)

b) 實體類別區分,模型需要區分文字中的實體的具體類別,這需要PLM對實體本身有較好的理解。

提升PLM實體與關係理解,ERICA一個框架就夠了

實體類別區分(FIGER)

c) 問題回答,作者測試了兩種常見的問題回答任務:多選問答(multi-choice QA)和抽取式問答(extractive QA)。這需要PLM對實體和實體間關係有較好的理解。

提升PLM實體與關係理解,ERICA一個框架就夠了

多選問答(multi-choice QA)

提升PLM實體與關係理解,ERICA一個框架就夠了

抽取式問答(extractive QA)

分析

a) 消融分析(ablation study)。作者對ERICA框架中的所有組成成分進行了細緻的分析,並證明了這些組成成分對於模型整體效果的提升是缺一不可的。

提升PLM實體與關係理解,ERICA一個框架就夠了

b) 視覺化分析。作者對經過ERICA訓練前後的PLM對實體和實體間關係的表示進行了視覺化,結果如下圖所示。透過ERICA的對比學習訓練,PLM對於同類別的實體/實體關係的表示有明顯的聚類現象,這充分驗證了ERICA能夠顯著增強PLM對實體和實體間關係的理解。

提升PLM實體與關係理解,ERICA一個框架就夠了

c) 此外,作者分析了遠端監督關係的多樣性/預訓練文件數量對於模型效果的提升。實驗結果發現,更加多樣的遠端監督關係與更大的預訓練資料集對於效能的提升有積極的作用。

提升PLM實體與關係理解,ERICA一個框架就夠了

提升PLM實體與關係理解,ERICA一個框架就夠了

d) 除了使用均勻池化的方式來獲得實體/關係表示,作者也嘗試使用entity marker的表示方法來測試模型的效能。實驗結果證明,ERICA對各種實體/關係表示方法均適用,進一步驗證了該架構的通用性。

提升PLM實體與關係理解,ERICA一個框架就夠了

總結

在本文中,作者提出了ERICA框架,透過對比學習幫助PLM提高實體和實體間關係的理解。作者在多個自然語言理解任務上驗證了該框架的有效性,包括關係提取、實體類別區分和問題問答。實驗結果表明ERICA顯著優於所有基線模型,尤其是在低資源的設定下,這意味著 ERICA 可以更好地幫助 PLM捕獲文字中的相關事實並綜合有關實體及其關係的資訊。

遷移學習發展現狀及案例探究

6月15日,機器之心最新一期線上分享邀請到本書作者、微軟亞洲研究院研究員王晉東帶來分享,介紹遷移學習的最新研究現狀,帶領大家從琳琅滿目的研究工作中,找尋最本質的方法。