選單

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

機器之心專欄

作者:鄧茗楷

長期以來,評價機器生成的文字比較困難。近日,CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的團隊提出用一種運算子,統一各類生成任務的評價方式,為未來各種新任務、新要求提供了更加統一的指導。實驗表明,基於統一框架設計的評價指標,在多個任務上超過了現有指標與人工評分的相似度,現在透過PyPI和GitHub可以直接呼叫。

自然語言生成(NLG)包括機器翻譯、摘要生成、機器對話等自然語言處理 (NLP)任務。這些任務雖然都要求生成通順的文字,但是最終的表達目標往往有很大的區別。比如說,

翻譯任務

需要完整、精確地表達原文的含義;

摘要生成

需要簡潔、準確地體現原文最重要的資訊;

對話系統

則需要與使用者進行生動、有用的對答。

過去幾年間,研究人員在這些任務的建模方面,取得了很大的進步。然而,評價語言生成的結果,卻依舊比較困難。人工評價最準確,但是非常昂貴耗時。自動評價則反過來,規模化比較容易,但在如何評價方面比較模糊。

傳統上的評價方法是比較模型生成的文字與人寫的參考文字,但近年的研究表明,隨著模型的進步,這樣的方法已經越來越難以區分文字的好壞。事實上,在AAAI 2021會議上的DSTC9對話系統比賽中,

人工評分已經不再考慮參考文字

,而是依靠評分員綜合對話歷史、知識情景和模型回答,作出評判。

同時,實際應用中的部署,也要求對生成模型作出多維度的評價,而這些是傳統的單一指標做不到的。比如,2021年百度主辦的「千言:面向事實一致性的生成評測比賽」中,除了傳統的資訊選擇指標外,還考察了事實性指標,併為之設計了獨立的評價流程。之前提到的DSTC9比賽的各個分賽也分別考察了3-8個不同的維度指標。

為了解決如上所述的新需求,相關工作提出了各種各樣的評價方法和新指標,但是這些方法往往是針對具體的任務和目標而設計。

對於日新月異的各類任務,要評價什麼?如何評價?目前還缺乏系統的指導

在這個方向上,

CMU(卡耐基梅隆大學)、Petuum Inc.、MBZUAI(穆罕默德·本·扎耶德人工智慧大學)和UCSD(加州大學聖迭戈分校)的研究團隊提出了一個自然語言生成評價的理論框架,為未來各種新任務和新要求,設計評估流程時,都提供了更加統一的指導

首先,研究人員根據資訊從輸入到輸出的變化方式,把語言生成任務分為三大類,每類任務對輸出提出不同的評價需求。透過給新任務歸類,就可以對「評價什麼」有所啟發。

其次,他們用一種稱為「資訊對齊」的運算子統一了所有任務類別的評價方式,從資訊對齊的角度出發設計評價指標,可以解決大量的「如何評價」問題。

論文中基於資訊對齊,統一設計了一系列評價指標,在評價多種任務(摘要生成、風格轉換和知識對話)中與人類評分的相似度最高超過現有指標57。30%。

論文中設計的評價指標已經上傳到Python庫,用pip install就可以直接安裝。研究人員在GitHub上也公開了程式碼,並提供了數種訓練好的資訊對齊模型,歡迎各位同學在研究中呼叫。

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

論文連結:https://arxiv。org/pdf/2109。06379。pdf

程式碼和API連結:https://github。com/tanyuqian/ctc-gen-eval

Python 安裝:pip install ctc_score

評價什麼:語言生成任務的分類

根據任務輸入(X)和輸出(Y)文字中,資訊量的關係,

研究者認為可以把語言生成任務分為三大類:壓縮、轉換和建立,分別對應輸入大於、等於和小於輸出

。每一類任務的目標都有區別,也對輸出文字提出了各自的要求。我們可以透過對新任務對分類,對「評價什麼」有所啟發。

壓縮類任務(Compression)

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

目標:把輸入資訊中重要的部分,呈現在輸出中

舉例:摘要生成(Summarization)、影象描述(Image Captioning)、結構文字生成(Data-to-Text)和問題生成(Question Generation)

評價重點:1)輸出資訊要完全來自輸入;2)輸出資訊應該是輸入中的重要資訊

轉換類任務(Transduction)

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

目標:把輸入資訊中的某一方面轉換,其他保持不變

舉例:機器翻譯(Translation)、文字複述(Paraphrasing)、文字風格遷移(Style Transfer)和文字簡化(Language Simplification)

評價重點:輸出要儘量完整地保留輸入的資訊

建立類任務(Creation)

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

目標:基於輸入和外部資訊,輸出新的資訊

舉例:機器對話(Dialog)、建議生成(Advice Generation)、故事生成(Story Generation)和詩歌生成(Poetry Generation)

評價重點:1)輸出要充分迴應輸入;2)輸出要正確地使用外部資訊

這裡可以看到,評估的重點取決於任務中輸入輸出的資訊量變化,因此,如果能夠測量輸入輸出資訊重合度,就可以評估所有類別的生成任務。

如何評價:資訊對齊

為了測量如上所述的重合度,

研究者引入了「資訊對齊」這個運算子,這樣就統一了所有生成任務的評價方式

資訊對齊是說,對於文字A和任何資料B,可以對於A的每個詞都算出一個置信度,這個詞的資訊有沒有在B中反映出來。具體的數學形式為如下所示的向量:

在實際中,這個資料B不一定要是文字,也可以是任何模態的資料,只要有一個模型(Alignment Model)能算出這個對齊的置信度。A、B、模型和對齊向量的關係如下圖所示:

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

下面,研究者展示瞭如何統一地用資訊對齊這個算符,來定義各種語言生成任務的評價指標。

用資訊對齊統一設計評價指標

壓縮類任務

對於壓縮類任務,研究者以摘要生成作為一個例子:

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

轉換類任務

對於轉換類任務,研究者以文字風格遷移為例:

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

建立類任務

對於建立類任務,研究者以知識對話為例:

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

現在已經用資訊對齊運算子定義了這麼多評估指標,下一步來看這個運算子是怎樣實現的。

資訊對齊的三種實現方法

研究者把資訊對齊當作一個預測問題建模,提出了三種基於預訓練模型(Pretrained Language Models)的實現方法,普遍採用自監督學習

。模型準確度可以透過與人工標註比較來評價。

詞向量召回(Embedding Matching)

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

判別模型(Discriminative Model)

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

迴歸模型(Aggregated Regression)

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

實驗結果

實驗結果表明,研究者的統一設計的評價指標,與人工評分的相似度,超過之前的針對任務特別設計的指標,最高超過現有指標57。30%。另外,研究者發現,對齊模型預測準確度越好,他們的指標就越接近人的評價。

超過現有指標最多57.30%

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

對齊模型準確度與人工評分相似度有直接關係

研究者的對齊模型普遍使用自監督學習,但使用人工標註訓練可以有效提升準確度和以此實現的評價指標。與人工評分的相似度如下圖所示:

超越現有指標57.3%,邢波教授、胡志挺教授團隊提出統一NLG評價框架

這說明了:只要能夠改善對齊預測模型,就能改善一大批評價指標。我們可以把對齊預測作為一個單獨的任務,這個任務的進步直接提升評價語言生成的準確度。

這項工作開啟了可組合(Composable)的文字評價流程。像軟體工程一樣,研究者表示可以把這個系統分為若干模組,這些模組可以獨立地改進、規模化、和診斷,未來期待有更多的探索。

封面來源:https://soa。cmu。edu/