OpenAI教GPT-3學會上網，“全知全能”的AI模型上線了

機器之心報道

編輯：陳萍

它被命名為 WebGPT，OpenAI 認為瀏覽網頁的方式提高了 AI 解答問題的準確性。

如果 AI 學會上網，那麼它就擁有了無限獲取知識的方式，之後會發生什麼就不太好預測了。於是著名 AI 研究機構 OpenAI 教那個開啟了通用人工智慧大門、體量巨大的人工智慧模型 GPT-3 學會了上網。

2020 年 5 月，OpenAI 上線具有 1750 億引數的 GPT-3，這個大模型可謂功能強大，它使用的最大資料集在處理前容量達到了 45TB，不僅可以更好地答題、翻譯、寫文章，還帶有一些數學計算的能力。這樣強大的深度學習模型，不禁讓人產生一種錯覺：真正的 AI 要來了嗎？

在 GPT-3 之後，語言大模型成為了各家科技公司研究的重要趨勢，有把大模型和知識圖譜結合的，也有在「大」這個方向上一頭走到黑的。今年 12 月，谷歌 GLaM已經把引數量推高到了 1。2 萬億。

像 GPT-3 這樣的語言模型對許多不同的任務都很有用，但在執行現實世界知識任務時往往會產生「幻覺」資訊。它們往往有一個缺點——缺乏常識。比如在被問及「我的腳有幾個眼睛」時，它會回答「兩個」。這一缺陷被業內稱為「GPT-3 的阿喀琉斯之踵」。在具體的應用中，它會導致模型在一些涉及邏輯推理和認知的任務上表現較差。

為了解決這個問題，

OpenAI 教會了 GPT-3 使用基於文字的 web 瀏覽器。

現在，這個模型能正確地處理一些棘手的問題：比如，有人詢問了一個錯誤的問題：「莎士比亞什麼時候寫的《哈利 · 波特》系列小說？」

該模型回答：莎士比亞沒有寫《哈利 · 波特》小說。這些小說是由 J。K。羅琳完成的……

現在看來，這個會上網的 WebGPT，不會再直接回答「我的腳有幾個眼睛」這樣錯誤明顯的問題，而是幫你糾正。

從回答的內容來看，這個模型完全正確，此外，該模型還給讀者提供了引用文獻，如藍體數字所示，答案的最後還給出了相關連結，點選每個連結，還能連結到相應的網頁。

又比如，有人問：海馬體中有相互連線嗎？模型的回答感覺比專業人士還要專業。同樣的，模型還給出了參考連結。

對於一些更專業的問題，WebGPT 也不在話下，比如，什麼是機器學習中的稀疏 transformer？對於這個問題，可能剛入行 AI 的研究者都回答不了，但是該模型能給出準確的答案，還帶公式的那種。

下面是模型搜尋過程：

上述功能是如何實現的呢？具體來說，OpenAI 對 GPT-3 進行了微調，以使用基於文字的網路瀏覽器更準確地回答開放式問題，這

允許模型搜尋和瀏覽網頁

。該模型原型複製了人類線上研究問題答案的方式，涉及提交搜尋查詢，跟蹤連結，以及向上和向下滾動網頁。模型經過訓練後，它會引用資訊源，這使得模型提供反饋更容易，從而提高事實的準確性。

此外，該模型還提供了一個開放式問題和瀏覽器狀態摘要，並且必須具有諸如「Search……」、「Find in page：……」或「Quote：……」之類的命令。

透過這種方式，模型從網頁中收集段落，然後使用這些段落來撰寫答案。

透過設定任務，OpenAI 能夠使用模仿學習（imitation learning）在不同任務上訓練模型，然後根據人類反饋最佳化答案質量。OpenAI 在 ELI5 上對模型進行了訓練和評估，其中 ELI5 是一個由 Reddit 使用者提問的問題集。

論文地址：https：//cdn。openai。com/WebGPT。pdf

模型訓練

如此智慧的模型是怎麼實現的呢？

總體而言，OpenAI 對 GPT-3 模型家族的模型進行了微調，重點研究了具有 760M、13B 和 175B 引數的模型。從這些模型出發，OpenAI 使用了四種主要的訓練方法：

行為克隆（Behavior cloning，BC）：OpenAI 使用監督學習對演示進行了微調，並將人類演示者發出的命令作為標籤；

建模獎勵（Reward modeling，RM）：從去掉 unembedding 層的 BC 模型開始，OpenAI 訓練的模型可以接受帶有引用的問題和答案，並輸出標量獎勵，獎勵模型使用交叉熵損失進行訓練；

強化學習（RL）：OpenAI 使用 Schulman 等人提出的 PPO 微調 BC 模型。對於環境獎勵，OpenAI 在 episode 結束時獲取獎勵模型分數，並將其新增到每個 token 的 BC 模型的 KL 懲罰中，以減輕獎勵模型的過度最佳化；

剔除抽樣（best-of-n）：OpenAI 從 BC 模型或 RL 模型（如果未指定，則使用 BC 模型）中抽取固定數量的答案（4、16 或 64），並選擇獎勵模型排名最高的答案。

對於 BC、RM 和 RL，OpenAI 使用了相互不相交的問題集。總結來說，BC 中，OpenAI 保留了大約 4% 的演示作為驗證集。RM 中，OpenAI 使用了不同大小模型（主要是 175B 模型）對比較資料集答案進行取樣，使用不同方法和超引數的組合進行訓練，並將它們組合成單個數據集。最終獎勵模型經過大約 16，000 次比較的訓練，其餘 5，500 次用於評估。而 RL 中採用混合的方式，其中 90% 問題來自 ELI5，10% 問題來自 TriviaQA。

結果

ELI5 結果

模型經過訓練可以回答來自 ELI5 的問題，OpenAI 訓練了三種不同的模型（760M、13B 和 175B），對應於三種不同的推理時間計算預算。OpenAI 表現最好的模型（175B best-of-64）產生的答案在 56% 的時間裡比人類演示者寫的答案更受歡迎。儘管這些是用於訓練模型的同一種演示，但我們能夠透過使用人工反饋來改進模型的答案以進行最佳化。

在 ELI5 測試集上，將 OpenAI 的模型與人類演示者進行比較。

TruthfulQA 結果

對於從訓練分佈（training distribution）中提出的問題，OpenAI 最好的模型的答案平均與我們的人類演示者寫的答案一樣準確。然而，對於 out-of-distribution 問題，魯棒性是一個挑戰。為了探討這個問題，OpenAI 在 TruthfulQA 資料集上進行了評估。OpenAI 的模型在 TruthfulQA 上優於 GPT-3，並表現出更有利的擴充套件特性。然而，OpenAI 的模型落後於人類的表現，部分原因是它們引用了不可靠的來源。該研究希望使用對抗訓練等技術來減少這些問題。

TruthfulQA 結果。

評估實時準確性

為了提供正確的反饋以提高事實準確性，人類必須能夠評估模型產生的回答。這可能是個極具挑戰性的任務，因為回覆可能是技術性的、主觀的或含糊不清的。出於這個原因，開發者要求模型引用其回答的來源。

經過測試，OpenAI 認為 WebGPT 還是無法識別很多細微差別，人們預計隨著人工智慧系統的改進，這類決策將變得更加重要，需要跨學科研究來制定既實用又符合認知的標準。或許辯論的方式可以緩解這些問題。

部署和訓練的風險

因為生成錯誤陳述的機率更低，WebGPT 顯然比 GPT-3 更加優秀，但它仍然存在風險。帶有原文引用的答案通常被認為具有權威性，這可能會掩蓋 OpenAI 新模型仍然存在基本錯誤的事實。該模型還傾向於強化使用者的現有信念，研究人員們正在探討如何最好地解決這些問題。

除了出錯和誤導之外，透過讓 AI 模型訪問網路的方法訓練，為該研究引入了新的風險。對此 OpenAI 表示人工智慧的瀏覽環境還不是完全的網路訪問，是透過模型將查詢請求傳送到 Microsoft Bing Web Search API 並關聯網路上已有連結實現的，這可能會產生副作用。

OpenAI 表示，根據對 GPT-3 的已有經驗，該模型似乎不足以危險地利用這些與外界互聯的方式。然而，風險會隨著模型能力的增加而增加，研究人員正在努力建立針對它們的內部保護措施。

OpenAI 認為，人類的反饋和 Web 瀏覽器等工具為實現穩定可信，真正通用的 AI 系統找到了一條有希望的途徑。儘管目前的語言大模型還面臨很多未知和挑戰，但人們在這個方向上仍然取得了重大進展。

參考連結：

https：//openai。com/blog/improving-factual-accuracy/

OpenAI教GPT-3學會上網，“全知全能”的AI模型上線了

猜你喜歡

推薦文章