選單

坐擁270億引數!阿里達摩院釋出超大規模語言模型PLUG,上能寫詩詞歌賦、下能對答如流

作者 | 馬超

出品 | CSDN(ID:CSDNnews)

日前,阿里達摩院釋出了最新中文預訓練語言模型 PLUG,在 PLUG 生成的各種詩歌與小說中,不時靈光閃現式的金句、妙語令人嘖嘖稱奇。

但是以筆者從業多年的經驗看,這些 PLUG 的金句雖然值得細細口味,但此時更應該關注的還是 PLUG 如何介紹自己,於是我就在“自由創作”的試用欄目輸入了“自然語言處理模型 PLUG ”的題目,雖然受到算力限制,PLUG 並沒有生成出完整的結果,但是這也已經有點上道的意思。

坐擁270億引數!阿里達摩院釋出超大規模語言模型PLUG,上能寫詩詞歌賦、下能對答如流

我們知道評價智慧化程度的重要指標,就是智慧體是否具有認知能力,從目前 PLUG 的理解與生成情況看,未來 PLUG 的進化終極體會不會直接把文科生的飯碗“搶”了,其實也未嘗不可能。

從技術角度看,PLUG(Pre-training for Language Understanding and Generation)最令人矚目的是引數規模達到 270 億,雖然還比不上 GPT-3 模型 1750 億的引數量,但在中文社群的純文字預訓練語言模型中,這已是目前為止最大規模,算是不錯的成就。接下來,PLUG 會將引數規模擴大到 2000 億,並進一步提高文字生成質量。

不同於 GPT-3 單向生成模型,PLUG 集合了達摩院 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 兩大自然語言模型的優勢,並透過構建輸入文字雙向理解能力,顯著提升了輸出文字的相關性。在語言理解任務上,PLUG 以 80。614 分重新整理了 CLUE 分類榜單紀錄;在語言生成任務上,PLUG 多項應用資料較業內最優水平提升了 8% 以上。

坐擁270億引數!阿里達摩院釋出超大規模語言模型PLUG,上能寫詩詞歌賦、下能對答如流

大規模自然語言模型簡史

2019 年在《權力的遊戲》結局爛尾之際,OpenAI 的超大規模預訓練語言模型 GPT 系列成功上位,有熱心網友使用 GPT-2 來重寫權遊劇本的結局。網友普遍反應 AI 改寫的新結局比電視劇的版本強太多,一時之間 GPT 各種喜提熱搜,而抱得大名。

坐擁270億引數!阿里達摩院釋出超大規模語言模型PLUG,上能寫詩詞歌賦、下能對答如流

去年 GPT-3 又橫空出世,這是一個只要你會簡單的英語,並能大概描述需求,它就能給你生成前端的程式碼的強力模型,像筆者這種在 IT 界摸爬滾打十幾年的老程式設計師,在試用了 GPT-3 網站之後,也驚得說不出話來,瞬間感覺程式設計師這行也沒那麼香了。

自此以後,中文領域的自然語言模型進展也備受業界關注,正如前文所說阿里達摩院本次釋出的 PLUG,讓我覺得碼字的文職崗位可能也要涼了…。經過不斷的進化,未來 PLUG 這類超大語言模型將泛應用於文字生成領域,成為“萬能寫作神器”。

更重要的是,PLUG 等模型展現出了極強的通用性與適應性,這才是未來真正有可能改變世界的關鍵點。接下來筆者從技術角度,向大家介紹一下達摩院的 PLUG 為什麼如此之強。

PLUG 為何如此之強?

PLUG 採用了 1TB 以上高質量中文文字訓練資料,依託阿里雲 EFLOPS 高效能 AI 計算叢集訓練模型,強大的算力支撐肯定肯定是阿里訓練 PLUG 的核心競爭力之一,而一方面 NLU 語言模型 StructBERT 與 NLG 語言模型 PALM 兩大自然語言模型的共同加持也同樣功不可沒。

我們知道目前自然語言處理的模型中有

自編碼

自迴歸

兩大流派,而 StructBERT 和 PALM 就分別是這兩大流派的優秀代表:

自編碼模型:

StructBERT 就屬於典型的自編碼模型。這是一項由詞嵌入技術發展而來的技術流派。而以 BERT 為代表的自編碼模型發展了詞嵌入這思想,他們把句子中的單詞加上掩碼(mask)並透過 AI 模型將 mask 還原,以此完成對於每個字的編碼的建模。

比如這個句子:

我愛北京天安門,天安門上太陽昇。

按照 BERT 的訓練方式,它會隨機將每個字替換為 mask:

我 [mask] 北京 [mask]安門,天安門上太[mask]升。

然後將 mask 還原回來,透過以上訓練方式我們也可以知道自編碼模型特別能挑出錯字,也就比較適合用於 NLU 也就是自然語言理解的任務。StructBERT 在 BERT 的基礎上,特別加強句子級別(Sentence Structural Objective)和詞級別(Word Structural 兩個層次的建模工作。按照筆者的理解這也就是說,StructBERT 針對詞與句子多做了兩層的 mask。還拿

“我愛北京天安門,天安門上太陽昇”

這句話來舉例。句子級別的建模加強了 BERT 原有的 NSP 任務,需要模型能分辨

“我愛北京天安門,天安門上太陽昇”

是一個正確的語序而“天安門上太陽昇,

我愛北京天安門

”是顛倒的兩句話。詞級別的建模引入了 tri-gram 的語序還原,比如“我愛北京門天安”的正確語序是“我愛北京天安門”。

自迴歸模型:

PLAM 是典型的自迴歸模型,其實通俗來看,自迴歸就是使用自身做迴歸變數的過程,比如在見到“我愛北京天安?”這段語義集的時候,模型將“?”處預測為“門”的機率就會特別大。

假設我們 I、love、you 三個單詞分別對應向量:X_1、X_2、X_3,那麼如果我們要建模 ”I love you” 這句話,其實就要透過貝葉斯公式解出,在自然語言這個序列出現的聯合機率分佈 P(X_1,X_2,X_3)。

由於詞語之間不是獨立的,我們僅統計 P(X_1)、P(X_2)、P(X_3)三個機率是不夠的。因為 X_1 還依賴於其它變數存在條件分佈 P(X_2|X_1) 和 P(X_3|X_1)。對於 X_2 和 X_3 也是一樣,我們可以將這三個模型組合起來獲得期望聯合分佈 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2)

坐擁270億引數!阿里達摩院釋出超大規模語言模型PLUG,上能寫詩詞歌賦、下能對答如流

在自迴歸模型中都考慮了順序資訊,也就是說他看到 I Love 之後極有可能續寫出後面的 “you” 來,這樣的條件機率演算法是自迴歸模型的基礎。

而 PALM 模型的 encoder-decoder 正規化也屬於自迴歸模型的範疇。不同的是,PALM 的 encoder 建模階段保留了 StructBERT 的訓練目標,從而具備更強的文字建模能力,並使得模型能夠保留在 NLU 任務上的良好表現。

達摩院團隊汲取自編碼與自迴歸兩大模型的所長,進行自然語言理解與生成的聯合訓練。因此能夠開看對於 GPT 系列模型的優勢。據悉接下來 PLUG 將擴大引數規模至 2000 億級,以進一步提升文字生成質量。

而筆者認為,如果像 PLUG 這麼高階的模型也能飛入尋常百姓家為大眾所廣泛使用,全面推廣的話,那也一定是借了雲平臺的風,PLUG 的釋出還開啟了 AI 雲計算的新篇章。

AI 雲大幕開啟

從目前 AI 的發展趨勢來看,最新的人工智慧模型對於算力的要求越來越高,自上一代自編碼模型 Google T5 開始,主流自然語言處理模型的引數數量就突破了百億大關,甚至谷歌科學家直接在 T5 的論文指出:“越大的模型往往表現更好。這表現擴大規模可能仍然是實現更好效能的方式。“像 GPT-3 引數量更是突破了千億大關,而 GPT-3 的變種那個可以透過語言描述生成繪畫的 DALL。E 引數量更是突破了兩千億。這樣的模型訓練成本之高,小型的初創公司只能望而卻步。

從另一個角度講,這樣的趨勢也推進了 AI 與雲的結合,只有將 雲、人與智慧終端結合到一起,才能降低門檻,促進行業創新發展。而這種結合實際與全場景棧 AI 是同一概念,也只有做好 AI 雲,才能讓 AI 充分發揮威力,體現價值。

此次達摩院在 PLUG 剛剛訓練完成之時,就透過阿里雲對學術界提供測試體驗埠的做法,值得我們點贊,開源共享的做法就是雲計算的時代精神。本次達摩院釋出的大規模模型一方面將從資料驅動(Data-driven)逐步發展到知識驅動(Knowledge-driven),探索資料和知識深度融合的預訓練語言模型;另一方面將不僅僅追求模型引數規模擴大,而會更關注超大模型的落地應用實踐。

與 PLUG 釋出同步,達摩院宣佈近期將開源阿里巴巴深度語言模型體系大部分重要模型。阿里達摩院語言技術實驗室負責人司羅表示,“達摩院 NLP 團隊將進一步攻克自然語言處理領域科研難題,完善中文及跨語言人工智慧基礎設施,讓 AI 沒有難懂的語言,並探索通用人工智慧之路。”

宣告:本文為作者獨立觀點,不代表 CSDN 立場。