坐擁270億引數！阿里達摩院釋出超大規模語言模型PLUG，上能寫詩詞歌賦、下能對答如流

作者 | 馬超

出品 | CSDN（ID：CSDNnews）

日前，阿里達摩院釋出了最新中文預訓練語言模型 PLUG，在 PLUG 生成的各種詩歌與小說中，不時靈光閃現式的金句、妙語令人嘖嘖稱奇。

但是以筆者從業多年的經驗看，這些 PLUG 的金句雖然值得細細口味，但此時更應該關注的還是 PLUG 如何介紹自己，於是我就在“自由創作”的試用欄目輸入了“自然語言處理模型 PLUG ”的題目，雖然受到算力限制，PLUG 並沒有生成出完整的結果，但是這也已經有點上道的意思。

我們知道評價智慧化程度的重要指標，就是智慧體是否具有認知能力，從目前 PLUG 的理解與生成情況看，未來 PLUG 的進化終極體會不會直接把文科生的飯碗“搶”了，其實也未嘗不可能。

從技術角度看，PLUG（Pre-training for Language Understanding and Generation）最令人矚目的是引數規模達到 270 億，雖然還比不上 GPT-3 模型 1750 億的引數量，但在中文社群的純文字預訓練語言模型中，這已是目前為止最大規模，算是不錯的成就。接下來，PLUG 會將引數規模擴大到 2000 億，並進一步提高文字生成質量。

不同於 GPT-3 單向生成模型，PLUG 集合了達摩院 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 兩大自然語言模型的優勢，並透過構建輸入文字雙向理解能力，顯著提升了輸出文字的相關性。在語言理解任務上，PLUG 以 80。614 分重新整理了 CLUE 分類榜單紀錄；在語言生成任務上，PLUG 多項應用資料較業內最優水平提升了 8% 以上。

大規模自然語言模型簡史

2019 年在《權力的遊戲》結局爛尾之際，OpenAI 的超大規模預訓練語言模型 GPT 系列成功上位，有熱心網友使用 GPT-2 來重寫權遊劇本的結局。網友普遍反應 AI 改寫的新結局比電視劇的版本強太多，一時之間 GPT 各種喜提熱搜，而抱得大名。

去年 GPT-3 又橫空出世，這是一個只要你會簡單的英語，並能大概描述需求，它就能給你生成前端的程式碼的強力模型，像筆者這種在 IT 界摸爬滾打十幾年的老程式設計師，在試用了 GPT-3 網站之後，也驚得說不出話來，瞬間感覺程式設計師這行也沒那麼香了。

自此以後，中文領域的自然語言模型進展也備受業界關注，正如前文所說阿里達摩院本次釋出的 PLUG，讓我覺得碼字的文職崗位可能也要涼了…。經過不斷的進化，未來 PLUG 這類超大語言模型將泛應用於文字生成領域，成為“萬能寫作神器”。

更重要的是，PLUG 等模型展現出了極強的通用性與適應性，這才是未來真正有可能改變世界的關鍵點。接下來筆者從技術角度，向大家介紹一下達摩院的 PLUG 為什麼如此之強。

PLUG 為何如此之強？

PLUG 採用了 1TB 以上高質量中文文字訓練資料，依託阿里雲 EFLOPS 高效能 AI 計算叢集訓練模型，強大的算力支撐肯定肯定是阿里訓練 PLUG 的核心競爭力之一，而一方面 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 兩大自然語言模型的共同加持也同樣功不可沒。

我們知道目前自然語言處理的模型中有

自編碼

和

自迴歸

兩大流派，而 StructBERT 和 PALM 就分別是這兩大流派的優秀代表：

自編碼模型：

StructBERT 就屬於典型的自編碼模型。這是一項由詞嵌入技術發展而來的技術流派。而以 BERT 為代表的自編碼模型發展了詞嵌入這思想，他們把句子中的單詞加上掩碼（mask）並透過 AI 模型將 mask 還原，以此完成對於每個字的編碼的建模。

比如這個句子：

我愛北京天安門，天安門上太陽昇。

按照 BERT 的訓練方式，它會隨機將每個字替換為 mask：

我 [mask] 北京 [mask]安門，天安門上太[mask]升。

然後將 mask 還原回來，透過以上訓練方式我們也可以知道自編碼模型特別能挑出錯字，也就比較適合用於 NLU 也就是自然語言理解的任務。StructBERT 在 BERT 的基礎上，特別加強句子級別（Sentence Structural Objective）和詞級別（Word Structural 兩個層次的建模工作。按照筆者的理解這也就是說，StructBERT 針對詞與句子多做了兩層的 mask。還拿

“我愛北京天安門，天安門上太陽昇”

這句話來舉例。句子級別的建模加強了 BERT 原有的 NSP 任務，需要模型能分辨

“我愛北京天安門，天安門上太陽昇”

是一個正確的語序而“天安門上太陽昇，

我愛北京天安門

”是顛倒的兩句話。詞級別的建模引入了 tri-gram 的語序還原，比如“我愛北京門天安”的正確語序是“我愛北京天安門”。

自迴歸模型：

PLAM 是典型的自迴歸模型，其實通俗來看，自迴歸就是使用自身做迴歸變數的過程，比如在見到“我愛北京天安？”這段語義集的時候，模型將“？”處預測為“門”的機率就會特別大。

假設我們 I、love、you 三個單詞分別對應向量：X_1、X_2、X_3，那麼如果我們要建模 ”I love you” 這句話，其實就要透過貝葉斯公式解出，在自然語言這個序列出現的聯合機率分佈 P（X_1，X_2，X_3）。

由於詞語之間不是獨立的，我們僅統計 P（X_1）、P（X_2）、P（X_3）三個機率是不夠的。因為 X_1 還依賴於其它變數存在條件分佈 P（X_2|X_1）和 P（X_3|X_1）。對於 X_2 和 X_3 也是一樣，我們可以將這三個模型組合起來獲得期望聯合分佈 P（X_1，X_2，X_3）=P（X_1）P（X_2|X_1）P（X_3|X_1，X_2）

在自迴歸模型中都考慮了順序資訊，也就是說他看到 I Love 之後極有可能續寫出後面的 “you” 來，這樣的條件機率演算法是自迴歸模型的基礎。

而 PALM 模型的 encoder-decoder 正規化也屬於自迴歸模型的範疇。不同的是，PALM 的 encoder 建模階段保留了 StructBERT 的訓練目標，從而具備更強的文字建模能力，並使得模型能夠保留在 NLU 任務上的良好表現。

達摩院團隊汲取自編碼與自迴歸兩大模型的所長，進行自然語言理解與生成的聯合訓練。因此能夠開看對於 GPT 系列模型的優勢。據悉接下來 PLUG 將擴大引數規模至 2000 億級，以進一步提升文字生成質量。

而筆者認為，如果像 PLUG 這麼高階的模型也能飛入尋常百姓家為大眾所廣泛使用，全面推廣的話，那也一定是借了雲平臺的風，PLUG 的釋出還開啟了 AI 雲計算的新篇章。

AI 雲大幕開啟

從目前 AI 的發展趨勢來看，最新的人工智慧模型對於算力的要求越來越高，自上一代自編碼模型 Google T5 開始，主流自然語言處理模型的引數數量就突破了百億大關，甚至谷歌科學家直接在 T5 的論文指出：“越大的模型往往表現更好。這表現擴大規模可能仍然是實現更好效能的方式。“像 GPT-3 引數量更是突破了千億大關，而 GPT-3 的變種那個可以透過語言描述生成繪畫的 DALL。E 引數量更是突破了兩千億。這樣的模型訓練成本之高，小型的初創公司只能望而卻步。

從另一個角度講，這樣的趨勢也推進了 AI 與雲的結合，只有將雲、人與智慧終端結合到一起，才能降低門檻，促進行業創新發展。而這種結合實際與全場景棧 AI 是同一概念，也只有做好 AI 雲，才能讓 AI 充分發揮威力，體現價值。

此次達摩院在 PLUG 剛剛訓練完成之時，就透過阿里雲對學術界提供測試體驗埠的做法，值得我們點贊，開源共享的做法就是雲計算的時代精神。本次達摩院釋出的大規模模型一方面將從資料驅動（Data-driven）逐步發展到知識驅動（Knowledge-driven），探索資料和知識深度融合的預訓練語言模型；另一方面將不僅僅追求模型引數規模擴大，而會更關注超大模型的落地應用實踐。

與 PLUG 釋出同步，達摩院宣佈近期將開源阿里巴巴深度語言模型體系大部分重要模型。阿里達摩院語言技術實驗室負責人司羅表示，“達摩院 NLP 團隊將進一步攻克自然語言處理領域科研難題，完善中文及跨語言人工智慧基礎設施，讓 AI 沒有難懂的語言，並探索通用人工智慧之路。”

宣告：本文為作者獨立觀點，不代表 CSDN 立場。

坐擁270億引數！阿里達摩院釋出超大規模語言模型PLUG，上能寫詩詞歌賦、下能對答如流

猜你喜歡

推薦文章