可構建AI的“AI”誕生：幾分之一秒內，就能預測新網路的引數

作者：Anil Ananthaswamy

譯者：劉媛媛

原文出處：quantamagazine。org

人工智慧在很大程度上是一場數字遊戲。當深度神經網路在 10 年前開始超越傳統演算法，是因為我們終於有了足夠的資料和處理能力來充分利用它們。

今天的神經網路更依賴於資料和算力。訓練網路時，需要仔細調整表徵網路的數百萬甚至數十億引數值，這些引數代表人工神經元之間連線的強度。目標是為它們找到接近理想的值，這個過程稱為最佳化。但訓練網路要達到這一點並不容易。倫敦 DeepMind 的研究科學家 Petar Veli kovi 說：“訓練可能需要花費幾天、幾周甚至幾個月的時間”。

但上述這種情況可能很快就會改變。安大略省圭爾夫大學的 Boris Knyazev 和他的同事設計並訓練了一個“超網路”——一種其他神經網路的“霸主”，該網路可以加快訓練過程。給定一個為某些任務設計的新的、未經訓練的深度神經網路，超網路可以在幾分之一秒內預測新網路的引數，理論上可以使訓練變得不必要。由於超網路學習了深度神經網路設計中極其複雜的模式，因此這項工作也可能具有更深層次的理論意義。這項研究題為Parameter Prediction for Unseen Deep Architectures。

目前，超網路在某些環境中表現的出人意料地好，但仍有增長空間。Veli kovi 說：“如果他們能解決相應問題，這將對機器學習產生很大的影響”。

獲得“超能力”

目前，訓練和最佳化深度神經網路的最佳方法是一種稱為隨機梯度下降技術（SGD）的變體。訓練涉及在給定任務中（例如：影象識別）最小化網路誤差。SGD 演算法透過大量標記資料來調整網路引數，並減少誤差或損失。梯度下降是損失函式從高值向下降到某個最小值的迭代過程，它代表了足夠好的（有時甚至時最好的）引數值。

但是這種技術只有在網路需要最佳化時才有效。為了構建最初的神經網路（一般由從輸入到輸出的多層人工神經元組成），工程師必須依靠直覺和經驗法則。這些架構在神經元層數、每層神經元數等方面可能有所不同。

圖1 梯度下降演算法用來降低網路的“損失函式”，其中較高的值表示較大的損失。該演算法試圖找到全域性最小值以最小化損失。

理論上，一個人可以從很多架構開始，然後最佳化每個架構並選擇最好的。但現任 Google Brain 的訪問研究員 MengYe Ren 說：“訓練需要花費相當多的時間，訓練和測試每個候選網路架構是不可能的。它不能很好地擴充套件，尤其是考慮到數百萬種可能的設計。”

所以在 2018 年，Ren 和他在多倫多大學的前同事 Chris Zhang 及他們的顧問 Raquel Urtasun 嘗試了一種不同的方法。他們設計了所謂的圖超網路（Graph Hypernetwork： GHN），可以在給定一組候選架構的情況下，找到解決某些任務的最佳深度神經網路架構。

該名稱概述了他們的方法。“圖”指的是深度神經網路的架構，可以被認為是一個數學圖——由線或邊連線的點或節點的集合。這裡的節點代表計算單元（通常是神經網路的整個層），邊代表這些單元互連的方式。

圖超網路的工作原理是首先對於任何需要最佳化的架構（稱其為候選架構），它盡最大努力預測候選者的理想引數。然後將實際神經網路的引數設定為預測值，並在給定任務上對其進行測試。Ren 的團隊表明，這種方法可用於對候選架構進行排名，並選擇表現最佳的架構。

當 Knyazev 和他的同事看到圖超網路的想法時，他們意識到可以在此基礎上進行構建。在他們的新論文中，該團隊展示瞭如何使用 GHN，不僅從一組樣本中找到最佳架構，還可以預測最佳網路的引數，使其在絕對意義上表現良好。在還沒有達到最好的情況下，其可以使用梯度下降進一步訓練網路。

Ren 說：“這是一篇非常紮實的論文，它包含了更多我們所做的實驗。看到圖超網路在非常努力地提升絕對效能，我們大家都很高興。”

訓練“教練”

Knyazev 和他的團隊將他們的超網路命名為 GHN-2，它改進了Ren及其同事構建的圖超網路的兩個重要方面。

首先，他們依賴 Ren 等人將神經網路架構描繪為圖的技術。圖中的每個節點都是關於執行某種特定型別計算的神經元子集的編碼資訊。圖的邊緣描繪了資訊如何從一個節點到另一個節點，從輸入到輸出。

第二，他們借鑑了訓練超網路預測新的候選架構的方法。這需要另外兩個神經網路。第一個啟用對原始候選圖的計算，從而更新與每個節點相關的資訊，第二個將更新的節點作為輸入，並預測候選神經網路的相應計算單元的引數。這兩個網路也有自己的引數，必須在超網路正確預測引數值之前對其進行最佳化。

具體流程如下，首先你需要訓練資料——候選人工神經網路（Artifical Neural Network： ANN）架構的隨機樣本。對於示例中的每一個架構，先從一個圖開始，之後使用圖超神經網路預測引數，並使用預測的引數初始化候選 ANN。使用 ANN 來執行一些特定的任務，如影象識別。透過計算 ANN 的損失函式，來更新做出預測的超網路引數，而不是更新 ANN 的引數做出預測。這樣可以使超網路在每一次迭代後做的更好；然後，透過迭代標記過的訓練資料集中的每一個影象和架構的隨機樣本中的每一個 ANN，來減少每一步的損失，直到達到最優。一般這個情況下，你就可以得到一個訓練有素的超網路。

因為 Ren 的團隊沒有公開原始碼，所以 Knyazev 的團隊採納了這些想法，從頭開始編寫了自己的軟體，並對其進行了改進。首先，他們確定了 15 種類型的節點，透過混合、匹配可以構建任何現代深度神經網路。他們還在提高預測的準確性上取得了一些進步。

最重要的是，為了確保 GHN-2 學會預測各種目標神經網路架構的引數，Knyazev 及其同事建立了一個包含 100 萬個可能架構的獨特資料集。Knyazev 說：“為了訓練我們的模型，我們建立了儘可能多樣化的隨機架構”。

因此，GHN-2 的預測能力更有可能被很好地推廣到看不見的目標架構。谷歌研究院大腦團隊的研究科學家 Thomas Kipf 說：“例如，它們可以解釋人們使用的所有典型的最先進的架構，這是一個重大貢獻。”

圖2 圖神經網路

令人印象深刻的結果

當然，真正的考驗是讓 GHN-2 發揮作用。一旦 Knyazev 和他的團隊訓練它預測給定任務的引數，例如，對特定資料集中的影象進行分類，他們就測試了它為任何隨機候選架構預測引數的能力。這個新的候選者可能具有與訓練資料集中的百萬架構相似的屬性，或者可能不同——有點離群值。在前一種情況下，目標架構被認為是在分發中；在後者中，它已無法分發。深度神經網路在對後者進行預測時經常會失敗，因此在此類資料上測試 GHN-2 非常重要。

藉助經過全面訓練的 GHN-2 模型，該團隊預測了 500 個以前看不見的隨機目標網路架構的引數。然後將這 500 個網路（其引數設定為預測值）與使用隨機梯度下降訓練的相同網路進行對比。儘管有些結果更加複雜，但新的超網路通常可以抵禦數千次 SGD 迭代，有時甚至做得更好。

圖3 安大略省圭爾夫大學的 Boris Knyazev ，幫助建立了一個超網路，旨在預測未經訓練的神經網路的引數。

對於影象資料集 CIFAR-10 ，GHN-2 在分散式架構上的平均準確率為 66。9%，而使用接近 2，500 次 SGD 迭代訓練的網路，所達到的平均準確率為 69。2%。對於非分散式架構，GHN-2 的表現出人意料地好，達到了大約 60% 的準確率。特別是，它對一種特定知名深度神經網路架構 ResNet-50 實現了 58。6% 的可觀準確率。Knyazev 在該領域的旗艦會議 NeurIPS 2021 上說：“鑑於 ResNet-50 比我們的平均訓練架構大大約 20 倍，所以 ResNet-50 的泛化效果出奇地好，”。

GHN-2 在 ImageNet 上表現不佳，ImageNet 是一個相當大的資料集。平均而言，它的準確率只有 27。2% 左右。儘管如此，這與使用 5，000 步 SGD 訓練的相同網路的 25。6% 的平均準確度相比也是有利的。（當然，如果你繼續使用 SGD，你最終可以以相當大的成本獲得 95% 的準確率。）最關鍵的是，GHN-2 在不到一秒的時間內做出了 ImageNet 預測，而使用 SGD 在圖形處理單元上預測引數，來獲得相同的效能，平均花費時間比 GHN-2 要長 10，000 倍。

Veli kovi 說：“結果絕對令人印象深刻，他們基本上大大降低了能源成本。”

當 GHN-2 從架構樣本中為一項任務找到最佳神經網路，而該最佳選擇還不夠好時，至少模型已經得到了部分訓練並且可以進一步最佳化。與其在使用隨機引數初始化的網路上釋放 SGD，不如使用 GHN-2 的預測作為起點。Knyazev 說：“基本上我們模仿的是預訓練”。

超越 G

HN-2

儘管取得了這些成功，Knyazev 認為機器學習社群一開始會抵制使用圖超網路。他將其比作 2012 年之前深度神經網路面臨的阻力。當時，機器學習從業者更喜歡手工設計的演算法，而不是神秘的深度網路。但是，當對大量資料進行訓練的大型深度網路開始超越傳統演算法時，這種情況發生了變化。Knyazev ：“這可以走同樣的路。”

與此同時，Knyazev 看到了很多改進的機會。例如，GHN-2 只能被訓練來預測引數以解決給定的任務，例如對 CIFAR-10 或 ImageNet 影象進行分類，但不能同時進行。在未來，他設想在更多樣化的架構和不同型別的任務（例如影象識別、語音識別和自然語言處理）上訓練圖超網路。然後根據目標架構和手頭的特定任務來進行預測。

如果這些超網路真的成功，新的深度神經網路的設計和開發，將不再侷限於財力雄厚和能夠訪問大資料的公司。任何人都可以參與其中。Knyazev 非常清楚這種“使深度學習民主化”的潛力，稱其為長期願景。

然而，如果像 GHN-2 這樣的超網路真的成為最佳化神經網路的標準方法，Veli kovi 強調了一個潛在的大問題。他說：“你有一個神經網路——本質上是一個黑盒子，再使用圖超網路去預測另一個神經網路的引數。當它出錯時，你無法解釋［它］。”

當然，在很大程度上這已經是神經網路的特點了。Veli kovi 說：“我不會稱之為弱點，而稱之為警告訊號。”

然而，Kipf 看到了一線希望。“一些其他的事物讓我對此感到最興奮，即 GHN-2 展示了圖神經網路在複雜資料中尋找模式的能力。”

通常，深度神經網路會在影象、文字或音訊訊號中找到模式，這些是相當結構化的資訊型別。而 GHN-2 在完全隨機的神經網路架構圖中找到模式。這是非常複雜的資料。

然而，GHN-2 可以泛化——這意味著它可以對看不見的、甚至分散式網路架構以外的引數做出合理的預測。Kipf 說：“這項工作向我們展示了許多模式在不同的架構中以某種方式相似，並且模型可以學習如何將知識從一種架構轉移到不同的架構，這可能會激發一些神經網路的新理論。”

如果是這樣的話，它可能會讓我們對這些黑匣子產生新的、更深入的理解。

點這裡關注我記得標星~