擁有100萬億引數的GPT-4，有什麼值得期待的？

作者：Alberto Romero

譯者：青蘋果

原文：GPT-4 Will Have 100 Trillion Parameters — 500x the Size of GPT-3.

為了應對實現通用人工智慧（AGI， Artificial General Intelligence）的挑戰，OpenAI 應運而生。通俗來說，這就是一種能夠完成人類所能完成的任何事情的 AI。

毫無疑問，這樣的技術必將改變我們所認知的世界。它就如一把雙刃劍，如果使用得當，可使所有人受益；倘若落入壞人之手，也會變成最具毀滅性的武器。這就是 OpenAI 接手這項任務的原因，以確保每個人都能平等受益：“我們的目標是以最有可能造福全人類的方式推進數字智慧。”

然而，這個問題的嚴重性使得它可以說是人類涉足的最大的科學事業。儘管計算機科學（CS， Computer Science）和 AI 有了長足的進步，但沒有人知道如何解決這個問題，以及它何時會成為現實。

有些人認為，深度學習不足以實現 AGI。伯克利大學的計算機科學教授、AI 先驅 Stuart Russell 認為：

“專注於原始計算能力完全沒有切中要點……我們不知道如何讓機器實現真正的智慧——即使它有宇宙那麼大。”

相比之下，OpenAI 相信，以大型資料集為基礎並在大型計算機上訓練的大型神經網路是實現 AGI 的最佳途徑。OpenAI 的首席技術官格雷格·布羅克曼（Greg Brockman）在接受《金融時報》採訪時表示：“我們認為，誰擁有最大型的計算機，誰就將獲得最大的收益。”

顯然，他們也是這樣做的：開始訓練越來越大的模型，以喚醒深度學習中隱藏的力量。朝此方向邁出的第一個非微妙步驟是 GPT 和 GPT-2 的釋出。這些大型語言模型將為後續的 “新秀”模型-GPT-3 奠定基礎。一個擁有 1750 億引數，比 GPT-2 大 100 倍的語言模型。

可見 GPT-3 是當時最大的神經網路，並且就目前來說，仍是最大的密集神經網路。它的語言專長以及數不勝數的能力令多少人為之驚歎。儘管一些專家仍持懷疑態度，但大型語言模型已經讓人感到新奇。

對於 OpenAI 研究人員來說，這是一個巨大的飛躍並且增強了他們的信念感，也進一步讓我們相信 AGI 是深度學習的一個值得關注的問題（OpenAI 團隊對於AGI的最新想法，可見“資料實戰派”近期文章：OpenAI GPT-4進展有了一些新線索）。

三位一體——演算法、資料和計算

OpenAI 相信擴充套件假說（ the scaling hypothesis）。

給定一個可擴充套件的演算法，即本例中的 Transformer——GPT 系列背後的基本架構——可能有一條通向 AGI 的直接路徑，該路徑可以基於該演算法訓練越來越大的模型。

但大型模型只是 AGI 難題的一部分。訓練它們需要大量的資料集和大量的計算能力。

當機器學習社群開始揭示無監督學習的潛力時，資料不再是瓶頸。這與生成語言模型和小樣本任務（few-shot task）遷移一起解決了 OpenAI 的“大資料集”問題。

他們只需要使用大量的計算資源來訓練和部署他們的模型即可很好地執行。這也就是他們在 2019 年與微軟合作的原因。他們授權了這家大型科技公司，這樣他們就可以在商業上使用 OpenAI 的一些模型，以換取對其雲計算基礎設施和所需的強大 GPUs 的訪問權。

但是 GPUs 並非是專為訓練神經網路而構建的。遊戲行業開發這些晶片用於圖形處理，而 AI 行業只是利用了它對平行計算的適用性。OpenAI 想要最好的模型和最好的資料集，他們也想要最佳的計算機晶片。然而，GPUs 還不夠。

許多公司也意識到了這一點，並開始在不損失效率和能力的情況下，構建訓練神經網路的內部專用晶片。然而，像 OpenAI 這樣的純軟體公司很難將硬體設計和製造進行整合。這恰好解釋了他們為什麼採取了另一條路線：使用第三方 AI 專用晶片。

這時到 CerebrasSystems 登場了。這家致力於研發用於深度學習的晶片產品的公司早在 2019 年便製造了有史以來最大的用於訓練大型神經網路的晶片。現在他們“重出江湖”，OpenAI 將很好地與其進行合作，開展新的研究。

WSE-2 晶片和 GPT-4 模型

兩週前，Wired雜誌發表了一篇文章，披露了兩條重要訊息。

首先，Cerebras 再次製造了市場上最大的晶片- WSE-2（Wafer Scale Engine Two）。它大約 22 釐米，有 2。6 萬億電晶體。相比之下，特斯拉（Tesla）全新的訓練晶片也僅有 1。25 萬億電晶體。

Cerebras 找到了一種有效壓縮計算能力的方法，因此 WSE-2 有 85 萬個核心（計算單元），而典型的 GPUs 只有幾百個。他們還用一種新穎的冷卻系統解決了散熱問題，並創設了一種高效的 I/O 資料流。

像 WSE-2 這樣的超專業、超昂貴、超強大的晶片用途並不多。訓練大型神經網路就是其中之一。所以 Cerebras 和 OpenAI 進行了對話。

第二條訊息是，Cerebras 執行長安德魯·費爾德曼（Andrew Feldman）對Wired雜誌表示：“從與 OpenAI 的對話來看，GPT-4 將會有大約 100 萬億個引數。……至於釋出，可能還需要幾年來準備。”

從 GPT-3 開始，人們就對 OpenAI 及其後續版本充滿了期待。現在我們知道它會在幾年內問世，而且規模會非常大。它的尺寸將超過 GPT-3 的 500 倍。是的，你沒看錯：500 倍！

GPT-4 將比去年震驚世界的語言模型大 500 倍。

GPT-4 可以帶給我們什麼期待？

100 萬億的引數究竟有多大呢？

為了理解這個數字概念，我們用人腦與其展開比較。一般情況下，大腦約有 800-1000 億個神經元（GPT-3 的數量級）和大約 100 萬億個突觸。

GPT-4 將擁有與大腦的突觸一樣多的引數。

這種神經網路的龐大規模可能帶來我們只能想象的 GPT-3 的質的飛躍。我們甚至可能無法用當前的提示方法測試系統的全部潛力。

然而，將人工神經網路與大腦進行比較是一件棘手的事情。這種比較看似公平，但那只是因為我們假設至少在一定程度上，人工神經元是鬆散地基於生物神經元的。最近發表在Neuron雜誌上的一項研究表明並非如此。他們發現，至少需要一個 5 層神經網路來模擬單個生物神經元的行為。換句話說，每個生物神經元大約需要 1000 個人工神經元才可以模擬。

由此看來，比較結果是，我們的大腦更勝一籌。即使 GPT-4 不如我們的大腦強大，它也肯定會帶來一些驚喜。與 GPT-3 不同，它可能不僅僅是一個語言模型。OpenAI 首席科學家 Ilya Sutskever 在 2020 年 12 月撰寫多模態的相關文章時暗示了這一點：

“到 2021 年，語言模型將開始認識視覺世界。當然，文字本身即可表達關於這個世界的大量資訊，但畢竟是不完整的，因為我們也生活在視覺世界之中。”

我們已經在 DALL·E 中看到了一些，它是 GPT-3 的一個較小版本（120 億引數），專門針對文字-影象對進行訓練。OpenAI 當時表示，“透過語言描述視覺概念現在已經觸手可及。”

OpenAI 一直在不停地開發 GPT-3 的隱藏能力。DALL·E 是 GPT-3 的一個特例，很像 Codex。但它們並不是絕對的改進，更像是一種特殊情況。而 GPT-4 具備更多的功能。舉例來說，將 DALL·E（文字影象）和 Codex（編碼）等專業系統的深度與 GPT-3（通用語言）等通用系統的寬度相結合。

那麼其他類人特徵呢，比如推理或常識？在這方面，Sam Altman 表示他們也不確定，但仍然保持“樂觀”心態。

總之，目前看來，問題很多但答案卻很少。沒有人知道 AGI 能否成為可能，也沒有人知道如何構建，亦沒有人知道更大的神經網路是否會越來越向其靠近。但不可否認的一點是：GPT-4 值得我們關注，必定不負期待。

本文轉載自公眾號“資料實戰派”

（ID：gh_ff93f845912e）

關於資料實戰派

資料實戰派希望用真實資料和行業實戰案例，幫助讀者提升業務能力，共建有趣的大資料社群。