選單

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

機器之心報道

編輯:陳萍

它被命名為 WebGPT,OpenAI 認為瀏覽網頁的方式提高了 AI 解答問題的準確性。

如果 AI 學會上網,那麼它就擁有了無限獲取知識的方式,之後會發生什麼就不太好預測了。於是著名 AI 研究機構 OpenAI 教那個開啟了通用人工智慧大門、體量巨大的人工智慧模型 GPT-3 學會了上網。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

2020 年 5 月,OpenAI 上線具有 1750 億引數的 GPT-3,這個大模型可謂功能強大,它使用的最大資料集在處理前容量達到了 45TB,不僅可以更好地答題、翻譯、寫文章,還帶有一些數學計算的能力。這樣強大的深度學習模型,不禁讓人產生一種錯覺:真正的 AI 要來了嗎?

在 GPT-3 之後,語言大模型成為了各家科技公司研究的重要趨勢,有把大模型和知識圖譜結合的,也有在「大」這個方向上一頭走到黑的。今年 12 月,谷歌 GLaM已經把引數量推高到了 1。2 萬億。

像 GPT-3 這樣的語言模型對許多不同的任務都很有用,但在執行現實世界知識任務時往往會產生「幻覺」資訊。它們往往有一個缺點——缺乏常識。比如在被問及「我的腳有幾個眼睛」時,它會回答「兩個」。這一缺陷被業內稱為「GPT-3 的阿喀琉斯之踵」。在具體的應用中,它會導致模型在一些涉及邏輯推理和認知的任務上表現較差。

為了解決這個問題,

OpenAI 教會了 GPT-3 使用基於文字的 web 瀏覽器。

現在,這個模型能正確地處理一些棘手的問題:比如,有人詢問了一個錯誤的問題:「莎士比亞什麼時候寫的《哈利 · 波特》系列小說?」

該模型回答:莎士比亞沒有寫《哈利 · 波特》小說。這些小說是由 J。K。 羅琳完成的……

現在看來,這個會上網的 WebGPT,不會再直接回答「我的腳有幾個眼睛」這樣錯誤明顯的問題,而是幫你糾正。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

從回答的內容來看,這個模型完全正確,此外,該模型還給讀者提供了引用文獻,如藍體數字所示,答案的最後還給出了相關連結,點選每個連結,還能連結到相應的網頁。

又比如,有人問:海馬體中有相互連線嗎?模型的回答感覺比專業人士還要專業。同樣的,模型還給出了參考連結。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

對於一些更專業的問題,WebGPT 也不在話下,比如,什麼是機器學習中的稀疏 transformer?對於這個問題,可能剛入行 AI 的研究者都回答不了,但是該模型能給出準確的答案,還帶公式的那種。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

下面是模型搜尋過程:

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

上述功能是如何實現的呢?具體來說,OpenAI 對 GPT-3 進行了微調,以使用基於文字的網路瀏覽器更準確地回答開放式問題,這

允許模型搜尋和瀏覽網頁

。該模型原型複製了人類線上研究問題答案的方式,涉及提交搜尋查詢,跟蹤連結,以及向上和向下滾動網頁。模型經過訓練後,它會引用資訊源,這使得模型提供反饋更容易,從而提高事實的準確性。

此外,該模型還提供了一個開放式問題和瀏覽器狀態摘要,並且必須具有諸如「Search……」、「Find in page:……」或「Quote:……」之類的命令。

透過這種方式,模型從網頁中收集段落,然後使用這些段落來撰寫答案。

透過設定任務,OpenAI 能夠使用模仿學習(imitation learning)在不同任務上訓練模型,然後根據人類反饋最佳化答案質量。OpenAI 在 ELI5 上對模型進行了訓練和評估,其中 ELI5 是一個由 Reddit 使用者提問的問題集。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

論文地址:https://cdn。openai。com/WebGPT。pdf

模型訓練

如此智慧的模型是怎麼實現的呢?

總體而言,OpenAI 對 GPT-3 模型家族的模型進行了微調,重點研究了具有 760M、13B 和 175B 引數的模型。從這些模型出發,OpenAI 使用了四種主要的訓練方法:

行為克隆(Behavior cloning,BC):OpenAI 使用監督學習對演示進行了微調,並將人類演示者發出的命令作為標籤;

建模獎勵(Reward modeling,RM):從去掉 unembedding 層的 BC 模型開始,OpenAI 訓練的模型可以接受帶有引用的問題和答案,並輸出標量獎勵,獎勵模型使用交叉熵損失進行訓練;

強化學習(RL):OpenAI 使用 Schulman 等人提出的 PPO 微調 BC 模型。對於環境獎勵,OpenAI 在 episode 結束時獲取獎勵模型分數,並將其新增到每個 token 的 BC 模型的 KL 懲罰中,以減輕獎勵模型的過度最佳化;

剔除抽樣(best-of-n):OpenAI 從 BC 模型或 RL 模型(如果未指定,則使用 BC 模型)中抽取固定數量的答案(4、16 或 64),並選擇獎勵模型排名最高的答案。

對於 BC、RM 和 RL,OpenAI 使用了相互不相交的問題集。總結來說,BC 中,OpenAI 保留了大約 4% 的演示作為驗證集。RM 中,OpenAI 使用了不同大小模型(主要是 175B 模型)對比較資料集答案進行取樣,使用不同方法和超引數的組合進行訓練,並將它們組合成單個數據集。最終獎勵模型經過大約 16,000 次比較的訓練,其餘 5,500 次用於評估。而 RL 中採用混合的方式,其中 90% 問題來自 ELI5,10% 問題來自 TriviaQA。

結果

ELI5 結果

模型經過訓練可以回答來自 ELI5 的問題,OpenAI 訓練了三種不同的模型(760M、13B 和 175B),對應於三種不同的推理時間計算預算。OpenAI 表現最好的模型(175B best-of-64)產生的答案在 56% 的時間裡比人類演示者寫的答案更受歡迎。儘管這些是用於訓練模型的同一種演示,但我們能夠透過使用人工反饋來改進模型的答案以進行最佳化。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

在 ELI5 測試集上,將 OpenAI 的模型與人類演示者進行比較。

TruthfulQA 結果

對於從訓練分佈(training distribution)中提出的問題,OpenAI 最好的模型的答案平均與我們的人類演示者寫的答案一樣準確。然而,對於 out-of-distribution 問題,魯棒性是一個挑戰。為了探討這個問題,OpenAI 在 TruthfulQA 資料集上進行了評估。OpenAI 的模型在 TruthfulQA 上優於 GPT-3,並表現出更有利的擴充套件特性。然而,OpenAI 的模型落後於人類的表現,部分原因是它們引用了不可靠的來源。該研究希望使用對抗訓練等技術來減少這些問題。

OpenAI教GPT-3學會上網,“全知全能”的AI模型上線了

TruthfulQA 結果。

評估實時準確性

為了提供正確的反饋以提高事實準確性,人類必須能夠評估模型產生的回答。這可能是個極具挑戰性的任務,因為回覆可能是技術性的、主觀的或含糊不清的。出於這個原因,開發者要求模型引用其回答的來源。

經過測試,OpenAI 認為 WebGPT 還是無法識別很多細微差別,人們預計隨著人工智慧系統的改進,這類決策將變得更加重要,需要跨學科研究來制定既實用又符合認知的標準。或許辯論的方式可以緩解這些問題。

部署和訓練的風險

因為生成錯誤陳述的機率更低,WebGPT 顯然比 GPT-3 更加優秀,但它仍然存在風險。帶有原文引用的答案通常被認為具有權威性,這可能會掩蓋 OpenAI 新模型仍然存在基本錯誤的事實。該模型還傾向於強化使用者的現有信念,研究人員們正在探討如何最好地解決這些問題。

除了出錯和誤導之外,透過讓 AI 模型訪問網路的方法訓練,為該研究引入了新的風險。對此 OpenAI 表示人工智慧的瀏覽環境還不是完全的網路訪問,是透過模型將查詢請求傳送到 Microsoft Bing Web Search API 並關聯網路上已有連結實現的,這可能會產生副作用。

OpenAI 表示,根據對 GPT-3 的已有經驗,該模型似乎不足以危險地利用這些與外界互聯的方式。然而,風險會隨著模型能力的增加而增加,研究人員正在努力建立針對它們的內部保護措施。

OpenAI 認為,人類的反饋和 Web 瀏覽器等工具為實現穩定可信,真正通用的 AI 系統找到了一條有希望的途徑。儘管目前的語言大模型還面臨很多未知和挑戰,但人們在這個方向上仍然取得了重大進展。

參考連結:

https://openai。com/blog/improving-factual-accuracy/