選單

DNN盛行的當下,舊的「核方法」或能開啟神經網路的魔盒

機器之心報道

編輯:杜偉

重新思考「老舊的」核(kernel)方法,或許可以破解深度學習的奧秘。

DNN盛行的當下,舊的「核方法」或能開啟神經網路的魔盒

在機器學習(ML)的世界,人工神經網路(ANN)越來越大的演化趨勢以及超大規模網路取得的成功正在造成概念性難題。

2012 年,Hinton 及其學生 Alex Krizhevsky 設計的 AlexNet 贏得年度影象識別競賽,它的引數量大約為 6000 萬。在訓練中對這些引數的微調使得 AlexNet 能夠識別以前從未見過的影象。2014 年,牛津大學計算機視覺組與 DeepMind 的研究者設計的具有 1。3 億引數的 VGG 摘得了 ILSVRC2014 比賽分類專案的第二名。直到現在,一些人工神經網路的引數量已經達到了數十億。

這些大規模網路在影象分類、語音識別以及語言翻譯等任務上取得了令人矚目的成功,並開始主導機器學習和人工智慧領域。然而,這些網路依然高深莫測,它們強大效能背後的原因也令人難以捉摸。

與此同時,大量的研究者正在證明:

這些強大網路的理想化版本在數學上等同於更舊、更簡單的 ML 模型——核機(kernel machine)

。如果這種等同性可以擴充套件至理想化神經網路之外,則或許可以解釋實用性人工神經網路如何取得令人驚奇的結果。

人工神經網路的神秘性部分表現在它們似乎可以顛覆傳統機器學習理論,即極度依賴從統計學和機率論觀點中學習。按照一般的思維方式,包括神經網路(NN)在內的機器學習模型經過訓練來學習簡單資料中的模式,對新資料進行預測。這些機器學習模型在具有合適的引數量時表現最好。

如果引數太少,則學得的模型太簡單,並且無法捕獲訓練資料的所有細微差別。如果引數太多,則模型變得極度複雜,對訓練資料中的模式進行細粒度學習,當被要求分類新資料時則無法實現泛化。這種現象被稱為過擬合。加州大學聖迭戈分校機器學習研究者 Mikhail Belkin 教授表示,「資料過擬合與擬合不夠之間需要達到一種平衡,這種中間狀態是我們想要的。」

DNN盛行的當下,舊的「核方法」或能開啟神經網路的魔盒

Mikhail Belkin

大家都說,像 VGG 這樣的深度神經網路(DNN)具有太多的引數,並且應該過擬合。但事實是,這些深度神經網路並沒有。相反地,這些網路向新資料的泛化得很好,直到最近,沒有人知道原因是什麼。

研究者也做了很多嘗試,比如希伯來大學已故(今年 8 月離世)計算機科學家和神經系統科學家 Naftali Tishby 認為,DNN 首先擬合訓練資料,然後丟棄不相關資訊(在資訊瓶頸中),這種做法有助於它們實現泛化。對其他研究者則認為,這種情況並沒有出現在所有型別的深度神經網路中,存在著爭議。

現在,核機和理想化神經網路在數學上的等同性為人們理解這些過引數化的網路為何以及如何得到(或收斂至)它們的解提供了線索。核機演算法透過將資料對映到極高維來發現資料中的模式。透過研究理想化神經網路在數學上易處理的等同核機,研究者正在學習具有極高複雜度的深度網路為什麼在訓練過程中能夠收斂至對未見過資料泛化良好的解。

Mikhail Belkin 表示,「神經網路有幾分像魯布 · 戈德堡機械(Rube Goldberg machine)。你不清楚它的哪部分真正地重要。我認為應將它們簡化成核方法,這種方法不需要那麼高的複雜度,有時使我們可以將正在執行的機器分離出來。」

追溯至 19 世紀的「核方法」

核方法或核機,依賴於一個歷史悠久的數學領域,可以追溯至 19 世紀。當時,德國數學家卡爾 · 弗里德里希 · 高斯提出了以其姓名命名的高斯核(Gaussian kernel),將一個變數 x 對映到一個與貝爾曲線(bell curve)形狀類似的函式。當 20 世紀早期英國數學家 James Mercer 將核用於解決積分方程時,核的現代化應用開始興起。到了 1960 年代,機器學習領域開始使用核來解決簡單分類方法無法搞定的資料。

理解核方法首先需要了解一類機器學習演算法——線性分類器(linear classifier)。比如說,使用兩個維度的資料可以對貓和狗進行分類,這意味著需要兩個特徵(即在 x 軸上描述的鼻子的大小以及在 y 軸上描述的耳朵的大小)來分辨出它們。我們在 xy 平面上描述標記資料,其中貓屬於一個聚類,狗屬於另一個。

接著,我們可以使用標記資料來訓練一個線性分類器,以找到將貓和狗聚類分開的一條直線。該過程中包含了尋找表徵這條直線的方程係數。現在,給定新的未標記資料,則很容易就可以透過觀察目標落在直線的哪邊來分類是貓還是狗。

但是,各品種貓和狗的鼻子和耳朵大小的實際資料當然無法透過一個線性分類器來分割。在這種情況下,當資料呈現線性不可分時,則會被轉換或對映到更高維的空間。做到這點的一種簡單方法是將兩個特徵的值相乘以建立第三個特徵。也許鼻子和耳朵大小之間存在的一些關聯可以區分出貓和狗。

一般來說,觀察更高維空間中的資料更容易找到線性分離器(linear separator),當處於三維以及以上空間時表現為超平面(hyperplane)。當這個超平面被映射回更低維時,它將採用帶有曲線和搖擺的非線性函式的形式,將原始的更低維的資料分離成兩個聚類。

但是,當我們處理真實資料時,常常在計算上效率不高,有時甚至不可能在高維中找到超平面的係數。核機卻並非如此。

支援向量機的出現將核機推向了舞臺中心

核機有能力做到以下兩點。第一點,核機可以將低維資料集中的每個點對映到更高維中的點。這一超平面的維數可以是無限的,取決於對映本身,由此造成一個問題:找到分離超平面的稀疏包括計算每對高維特徵的內積(inner product),當資料被對映到無線維時就變得很困難。

DNN盛行的當下,舊的「核方法」或能開啟神經網路的魔盒

二維和三維空間中的線性分類器。Samuel Velasco/Quanta Magazine

第二點是:給定兩個二維的資料點,核機使用一個核函式來分離出一個等於相應更高維特徵的內積的數字。關鍵是,核機演算法可以使用這種技巧來找到超平面的係數,並且實際上不需要踏入高維空間。

加州大學伯克利分校名譽教授 Bernhard Boser 表示,「核方法最棒的一點是所有的計算發生在低維空間中,而不用可能無限維的空間。」

20 世紀 80 年代晚期和 90 年代早期,就職於美國新澤西州霍姆德爾貝爾實驗室的 Boser 及其同事 Isabelle Guyon 和 Vladimir Vapnik 發明了一種核機——支援向量機(SVM)。自二十世紀 60 年代代以來,各種型別的核機在機器學習領域留下了它們的足跡,SVM 的出現使它們登上了舞臺中心,並已被證明極其強大。

到了 2000 年代早期,SVM 廣泛應用於生物資訊學(比如找出不同蛋白質序列的相似性和預測蛋白質的功能)、機器視覺和手寫識別等多個領域。

DNN盛行的當下,舊的「核方法」或能開啟神經網路的魔盒

從左至右依次為 Bernhard Boser、Isabelle Guyon 和 Vladimir Vapnik。

此後,SVM 繼續統治機器學習領域,直到 2012 年 AlexNet 的出現,深度神經網路才逐漸走向成熟。隨著機器學習社群轉投人工神經網路,SVM 開始陷入困境,但它們以及其他核機仍然是強大的模型,可以教我們很多東西。例如,核機能做的不僅僅是使用核技巧來找到分離的超平面。

谷歌研究院大腦團隊研究科學家 Chiyuan Zhang 表示,「如果你有一個強大的核,則可以將資料對映到一個無限維、極其強大的核空間。你總能在這個強大的隱空間中找到一個線性分離器來分離資料,並且存在無數種可能的解。」核理論不僅僅使你可以選擇任意的線性分離器,而且透過限制用於搜尋的解的空間找到可能最佳的線性分離器。

這類似於減少模型中的引數量來防止其出現過擬合

,該過程被稱為正則化(regularization)。

Chiyuan Zhang 想知道深度神經網路是否會做類似的事情。

深度神經網路由多層人工神經元組成,包括一個輸入層、一個輸出層和至少一個夾在輸入與輸出層之間的隱藏層。隱藏層越多,網路就越深。網路的引數表徵了這些神經元之間連線強度。比如,訓練一個用於影象識別的網路包括重複地像它展示以前分類的影象並確定其引數值,從而幫助它正確地特徵化這些影象。一旦經過訓練,人工神經網路表徵了一個將輸入(一張影象)轉換成輸出(類別標籤)的模型。

2017 年,Chiyuan Zhang 及其同事對 AlexNet 和 VGG 等網路進行了一系列實證測試,以觀察用於訓練它們的演算法是否以某種方式有效地減少了可調引數的數量,從而產生一種隱式正則化。換句話說,訓練機制是否導致這些網路無法過擬合。

該團隊發現結果並非如此。使用經過巧妙操作的資料集,

他們發現 AlexNet 和其他此類人工神經網路的確出現了過擬合但無法泛化。

但是,使用相同演算法訓練的相同網路無法過擬合,當給定未更改的資料時,泛化得很好。因此,這種隱式正則化不是最終的答案。他們的發現表明「特徵化深度神經網路中的泛化需要更好的解釋」。

無限的神經元

與此同時,研究表明,更寬的神經網路在泛化效能上與較窄的網路一樣好或相對更好。這意味著或許可以採用物理學中的策略來理解人工神經網路,對此,谷歌研究院大腦團隊研究科學家 Yasaman Bahri 表示,「研究極限狀態有時可以簡化問題」。為了應對這類情況,物理學家常常透過考慮極端情況來簡化問題。例如,當系統中的粒子數區域無窮大時,會發生什麼呢?在這些極限情況下,統計學影響變得更容易處理。從數學上講,如果層寬 ——單層中的神經元數量是無限的,神經網路會發生什麼呢?

1994 年,現為多倫多大學名譽教授的 Radford Neal 提出了這個關於具有單個隱藏層的網路的確切問題。他表示,

如果一個網路的權重被設定或者被初始化,並具有某些統計學特性,則在初始化時這個網路在數學上等同於一個眾所周知的核函式——高斯過程(Gaussian process)。

二十多年後的 2017 年,包括 Yasaman Bahri 在內的兩個研究小組表明,具有多個隱藏層的理想化無線寬深度神經網路也呈現這種屬性。

這個一個驚人的暗示。通常來說,即使一個深度網路在接受訓練之後,也無法使用解析數學表示式來對未見過的資料進行預測。你只需要執行這個深度網路,觀察它「說」了什麼—— 就像一個黑匣子一樣。但在理想化的場景中,網路在初始化相當於一個高斯過程。你可以扔掉神經網路,只訓練核機,因為你有數學表示式。

Yasaman Bahri 表示,「一旦你將它對映到一個高斯過程,則可以解析計算預測應該是什麼。」這已經是一個里程碑式的結果,但並沒有在數學上描述實踐中使用的最常見訓練形式期間會發生什麼。在這種設定下,尚不清楚該解如何能夠泛化得這樣好。

梯度下降和神經正切核

部分謎團集中在如何訓練深度神經網路上,其中涉及一種梯度下降(gradient descent)的演算法。「下降」一詞表示這樣一種事實,即訓練期間,網路穿越了一個複雜、高維並遍佈丘陵和山谷的景觀,其中這個景觀中的每個位置都表徵了網路對給定引數值集合的誤差。最終,一旦引數得到適當地調整,則人工神經網路達到一個被稱為全域性最小值的區域,這意味著它儘可能接近準確地分類訓練資料。訓練一個網路本質上是最佳化問題,即尋找全域性最小值,訓練後的網路表徵一個將輸入對映到輸出的幾乎最優函式。這個一個難以分析的複雜過程。

西雅圖華盛頓大學機器學習專家 Simon Du 表示,「

沒有現有理論能夠保證這種情況:如果你使用梯度下降等一些廣泛使用的演算法,人工神經網路可以收斂至全域性最小值。

」到 2018 年底,我們開始明白這樣說的原因了。

同樣地,正如重大科學進步經常發生的那樣,根據對無限寬網路的數學分析以及它們與更易理解的核機的關係,很多研究團隊同時得到了一個可能的答案。在 NeurIPS 2018 會議上,瑞士洛桑聯邦理工學院的博士生 Arthur Jacot 展示了他們的研究成果。

DNN盛行的當下,舊的「核方法」或能開啟神經網路的魔盒

Arthur Jacot

雖然他們的研究在細節和框架上不同,但本質上依然是無限寬的深度神經網路,其權重在初始化時考慮了一些統計學的特性,因此在初始化和整個訓練過程中都完全等同於核。關於權重的一個核心假設是:它們在訓練期間各自的變化很小,儘管無限多微小變化的影響依然顯著。

鑑於這種假設,Arthur Jacot 及其同事表明,無限寬的深度神經網路往往等同於一個在訓練期間從不變化的核。核甚至不依賴訓練資料,核函式僅取決於神經網路的架構,如深度和連線型別。該團隊根據核的幾何屬性將他們的工作命名為了神經正切核(neural tangent kernel)。

Arthur Jacot 表示,「我們知道,至少在一些情況下,神經網路可以像核方法一樣執行。這是試圖比較這些方法以理解它們的異同的第一步。」

開啟神經網路魔盒的鑰匙

這個結果解釋了為什麼深度神經網路,至少在這個理想的情況下,可以收斂到一個解。當我們在引數空間中檢視人工神經網路 時,也就是說從引數和複雜的損失情況來看,這種收斂性很難在數學上證明。但是,由於理想化的深度網路相當於一個核機,我們可以使用訓練資料來訓練深度網路或核機,並且每個深度網路或核機最終將找到一個將輸入轉換為輸出的近似最優函式。

在訓練期間,由無限寬神經網路表示的函式演化與由核機表示的函式演化相匹配。在函式空間中,神經網路及其等價的核機都在某個超維空間中表現出一個簡單的碗狀景觀。使用梯度下降演算法很容易到達碗的底部,即全域性最小值。

但是,並不是每個人都認為核和神經網路之間的這種等價性適用於實際的神經網路,這些神經網路具有有限的寬度,並且其引數在訓練過程中可能會發生巨大變化。Chiyuan Zhang 認為有一些點需要聯絡起來。

Belkin 認為,即使核方法是舊的理論,但研究者對它的理解還是不夠的。Belkin 的團隊已經透過經驗證明,核方法不會過度擬合,並且對測試資料泛化能力也不錯,此外,實現這種效能還不需要正則化,這類似於神經網路,與傳統的學習理論相反。Belkin 表示,「如果我真的瞭解了核方法,那麼我認為這真的給了我們一把開啟神經網路魔盒的鑰匙。」

研究人員不僅對核有更堅實的數學理解,可將其用作理解神經網路的類似物,而且從經驗上講,它們比神經網路更容易使用。核並不複雜,它們不需要隨機初始化引數,而且它們的效能更具可複製性。研究人員已經開始調查現實網路和核之間的聯絡,相信他們對核的理解必將更加深刻。

Belkin 認為,即使核方法是舊的理論,它們仍然沒有被完全理解。他表示:「如果我們建立了絕對的、完全的等價,那麼我認為它將會改變整個遊戲」。

過去30年,微軟研究院一直透過跨學科、跨機構、跨地域的科學研究,為微軟、為社會暢想和實現技術遠景,致力於培育一個有韌性、可持續且健康的全球社會,並確保技術值得信賴,可以讓每一個人受益。

為了進一步探索科學與技術發展的未來,由微軟全球八大研究院攜手傾力打造的首屆微軟研究峰會 Microsoft Research Summit 2021將於10月19日至21日線上舉辦。

來自世界各地的300餘位頂尖科學家和技術領導者將帶來共150場分享,包括微軟公司董事長兼執行長 Satya Nadella,首席技術官 Kevin Scott,微軟全球資深副總裁、微軟研究院負責人 Peter Lee……內容圍繞“科學、賦能、可持續發展、醫療健康、信任”五大主題展開,話題涵蓋人工智慧的行業應用、機器學習、可持續發展、隱私與安全、健康和生命科學等等。