選單

十年磨一劍 英偉達能否掌控人工智慧的未來?

十年磨一劍 英偉達能否掌控人工智慧的未來?

【劃重點】

1。目前97。4%的人工智慧加速器部署的都是英偉達GPU晶片,英偉達在人工智慧演算法訓練市場上佔據“近100%”的份額。

2。英偉達高管強調這不是誤打誤撞,公司在進軍人工智慧市場方面一直非常注重策略性。

3。英偉達仍主導谷歌發明的人工智慧行業標準MLPerf基準測試。

4英偉達之所以要收購ARM,是想要在邊緣推理晶片方面獲得更多優勢。

5。業內人士認為英偉達在隱藏GPU複雜性方面做得非常出色。

6。英偉達斥資數千萬美元打造人工智慧超算是為了吸引行業頂尖人才。

(本文約7000字,閱讀全文大約需要10分鐘)

【編者按】

目前英偉達的GPU主導著人工智慧晶片領域。但十年過去,越來越多的企業開始利用人工智慧來從收集的海量資料尋找規律,而很多機構和組織也在向深度學習研究投入鉅額資金。許多初創企業表示,單靠GPU已經落伍,快速發展的人工智慧領域需要新的架構。加之物聯網生成的海量資料撲面而來,英偉達將如何掌控人工智慧的未來?

以下為文章正文:

十年磨一劍 英偉達能否掌控人工智慧的未來?

英偉達到底是如何從顯示卡製造商發展到主宰人工智慧晶片領域的?這個故事似乎和貓有關係。現任英偉達首席科學家的比爾·戴利(Bill Dally)在2010年曾與斯坦福大學同事、計算機科學家吳恩達吃過一次早餐。吳恩達當時正和谷歌合作開發一個專案。戴利回憶道,“他正試圖在網際網路上找貓。他當時沒有這麼說,但這就是他正在做的。”

吳恩達當時正在谷歌旗下的Google X實驗室從事研究專案,試圖開發出一個能夠自主學習的神經網路。這個神經網路播放YouTube上的1000萬段影片,並學會如何識別人臉、身體和貓。但吳恩達實現這一點用了幾千個CPU晶片。“我當時說,’我打賭我們只用幾個GPU就能做到,’”戴利回憶。當時圖形影象處理器(GPU)主要用於處理3D渲染等更密集的工作負載,這使得它們在人工智慧方面比CPU效果更好。

戴利求助於英偉達深度學習現任研究主管布萊恩·卡坦扎羅(Bryan Catanzaro),希望實現這一想法。結果他做到了。他們只用了12個GPU,就證明GPU的並行處理能力在訓練吳恩達的人工智慧識別模型時比CPU更快更高效。

但卡坦扎羅想讓大家知道的是,英偉達深耕人工智慧並不只是源自那次偶然的早餐。事實上,早在2008年加入英偉達之前,卡坦扎羅還是伯克利大學的研究生時就已經在開發用於人工智慧的GPU了。他表示:“英偉達目前所擁有的市場地位絕非偶然。”

十年磨一劍 英偉達能否掌控人工智慧的未來?

英偉達深度學習現任研究主管布萊恩·卡坦扎羅(Bryan Catanzaro)

不論如何,英偉達已經在人工智慧晶片領域佔據了主導地位,關於公司何時開始以及如何實現這一目標的說辭似乎已無關緊要。目前英偉達的主要營收來源仍然是遊戲顯示卡,但上一財年公司用於資料中心的GPU銷售額攀升至67億美元。2019年,在亞馬遜雲服務(AWS)、谷歌、阿里巴巴和微軟Azure這四大雲服務商的資料中心中,97。4%的人工智慧加速器中部署的都是英偉達GPU晶片。市場研究公司Cambrian AI Research分析師卡爾·弗羅因德(Karl Freund)表示,英偉達在人工智慧演算法訓練市場上佔據“近100%”的份額。在全世界500強超級計算機中,近70%使用的也是英偉達GPU。幾乎所有的人工智慧里程碑都少不了英偉達的晶片。吳恩達的YouTube影片貓識別系統、DeepMind開發的圍棋冠軍AlphaGo、OpenAI的語言預測模型GPT-3都是在英偉達的硬體上執行。可以說,英偉達GPU成了人工智慧研究人員的立足點。

儘管英偉達取得了成功,但卡坦扎羅仍然對有關英偉達是誤打誤撞從遊戲領域進入人工智慧領域的說法很不滿。“我發誓,我讀過的每一個故事幾乎都是這樣的:GPU碰巧在人工智慧方面表現出色,英偉達透過向新市場出售現有晶片暫時到手了筆意外之財,很快它們就會被初創公司所取代。”卡坦扎羅說,“但10年來,英偉達在進軍人工智慧市場方面一直非常注重策略性。”

十年過去,顛覆現有市場的時機已經成熟。越來越多的企業開始利用人工智慧來從收集的海量資料尋找規律,而很多機構和組織也在向深度學習研究投入鉅額資金。德勤分析師科斯蒂·佩里科斯(Costi Perricos)表示,人工智慧將成為各國競相爭奪的焦點。與此同時,深度學習模型的規模和複雜性都在不斷增加,需要硬體能提供更多算力。

十年磨一劍 英偉達能否掌控人工智慧的未來?

OpenAI的GPT-3就是其中最極端的例子。這個深度學習系統可以自動生成人們可理解的文字。整個系統由1750億個引數及變數組成,計算成本約為460萬美元。隨後,GPT-3被擁有1。6萬億引數的谷歌語言模型所超越。為了提高精度,人工智慧系統往往需要更高效的硬體來處理更多引數和資料,但同時也要防止人工智慧本身成為更大的環境災難。丹麥研究人員表示,訓練GPT-3所需的能量相當於汽車行駛70萬公里的碳排放量。

人們需要更多的人工智慧晶片,也需要更好的人工智慧晶片。儘管英偉達的早期研發工作在業內領先一步,但挑戰者們正在競相追趕。谷歌於2015年開始製造自家的人工智慧晶片;亞馬遜在2016年收購了以色列晶片設計公司Annapurna Labs,從去年開始將數字助理Alexa的大腦換成自家的Inferentia機器學習晶片;百度旗下的崑崙晶片最近估值達到了20億美元;高通在2019年宣佈推出一款人工智慧專用晶片Cloud AI 100;IBM正在研究一種低能耗人工智慧晶片設計;AMD收購賽靈思,專注於人工智慧資料中心;英特爾在2019年為其至強資料中心CPU添加了人工智慧加速功能。此外,英特爾先是在2016年以4。08億美元的價格收購了神經網路晶片公司Nervana,又在2019年以20億美元收購人工智慧晶片製造商Habana Labs。在過去的幾年裡,Graphcore、SambaNova、Cerebras、Mythic AI、Blaize和TensTorrent等初創公司陸續釋出或開始測試人工智慧晶片。

但全世界仍處於人工智慧領域的早期階段。吳恩達的貓是十年前才計算出來的;業內大多數初創公司只有幾年的歷史。隨著智慧物聯網裝置開始一場機器對機器的革命,更多的資料集將會流動起來,所有人的觀點都集中在同一件事上:如何掌控人工智慧晶片的未來。

開啟人工智慧大門的GPU

機器學習是一種完全不同的計算工作負載,需要用不那麼精確的大量資料完成大量數學運算。傳統的高效能計算是將多個系統並在一起,構建出超級計算機來處理科學模擬或金融建模等複雜工作負載。這些任務通常用高精度的64位資料完成計算。相比之下,人工智慧計算也需要龐大的計算基礎設施,但所使用的資料並沒有那麼精確,只有16位甚至是8位,這有些類似於超現實影象和上世紀80年代畫素化遊戲之間的區別。人工智慧晶片初創公司Cerebras執行長安德魯·費爾德曼(Andrew Feldman)表示:“資料處理基本上很簡單,但也很複雜。”

人工智慧晶片可以是任何針對谷歌TensorFlow或Facebook的PyTorch等機器學習工作負載進行過最佳化的處理器。在訓練或執行深度學習模型時,人工智慧晶片不一定要完成所有的計算工作,主要是當作加速器來處理最密集的工作負載。例如,英偉達封裝的人工智慧系統DGX A100就用8個安培A100 GPU當作加速器,此外還有一個128核的AMD CPU。

人工智慧並不是什麼新鮮事,但之前人們缺少讓深度學習模型成為現實的計算能力,這讓研究人員花時間等待硬體的進步。另一家制造人工智慧晶片的初創公司SambaNova聯合創始人兼執行長Rodrigo Liang表示:“GPU打開了人工智慧的大門。”

一年一度的ImageNet計算機視覺挑戰賽讓研究人員相互競爭,開發能夠識別影象或物體的演算法。2012年,多倫多大學研究人員亞歷克斯·克里熱夫斯基(Alex Krizhevsky)基於GPU的深度學習系統擊敗了其他參賽者。到2015年,所有在ImageNet中排名靠前的參賽者用的都是基於GPU硬體的演算法。

這讓深度學習研究呈現爆炸式增長的局面。英偉達的技術讓深度學習處理速度提高了20倍以上。但英國晶片初創公司Graphcore聯合創始人在公司剛剛成立時卻一度找不到投資者。“我們從風投那裡經常聽到的一句話是:’什麼是人工智慧?’”該公司聯合創始人兼首席技術官西蒙·諾爾斯(Simon Knowles)回憶起2015年去加州尋求融資的經歷時這樣說。“令人驚訝的是,幾個月後,也就是2016年初,一切都變了。那時每個人都熱衷於人工智慧,”諾爾斯說。“然而,他們對晶片硬體卻沒有那麼感興趣。”新的晶片架構當時被認為沒有必要,英偉達已經佔據了整個行業。

但是2016年5月,谷歌改變了一切。Cerebras的費爾德曼稱谷歌做出了一個“誇張的戰略決策”,宣佈谷歌已經為人工智慧應用自行開發晶片。這些所謂張量處理單元(TPU)的晶片就是為了與谷歌TensorFlow機器學習程式設計框架協同工作。Graphcore的諾爾斯表示,此舉向投資者發出了一個訊號,即新的人工智慧晶片設計或許有市場。“突然間所有的風投都在想:那些瘋狂的英國人現在在哪兒?”諾爾斯說。從那之後,Graphcore拿到了7。1億美元的融資。

英偉達的競爭對手們認為,GPU是為圖形影象處理而非機器學習設計的,儘管其強大的處理能力意味著比CPU更勝任人工智慧任務。但由於系統最佳化的侷限性和軟體層的複雜性,它們的市場主導地位只能維持這麼長的時間。“英偉達在隱藏GPU複雜性方面做得非常出色,”Graphcore聯合創始人兼執行長奈傑爾·圖恩(Nigel Toon)表示。“GPU之所以有效,是因為他們開發的軟體庫、框架並進行最佳化,隱藏了計算層面的複雜性。對於英偉達來說,這是一項非常艱鉅的任務。”

但拋開GPU的話,可能需要從頭開始設計擁有全新架構的人工智慧晶片。谷歌的TPU晶片是針對特定工作負載設計的專用積體電路;Cerebras開發的則是晶圓級引擎,這種巨型晶片要比其他晶片大56倍;IBM和BrainChip則是以人腦為模型開發神經形態晶片;而Mythic和Graphcore生產的是智慧處理單元(IPU),但設計有所不同。

但卡坦扎羅認為,許多晶片只是人工智慧加速器的變體。他說:“我們可以說GPU、TPU或IPU或其他什麼,但人們只是很習慣這些字母。“我們這樣稱呼GPU是因為以前就這麼說……但GPU一直是用於加速計算的,而人們所關心的工作負載性質在不斷變化。”

有誰能和英偉達抗衡?目前英偉達仍主導MLPerf基準測試。MLPerf是深度學習晶片的黃金標準。市場研究公司Cambrian AI Research分析師卡爾·弗羅因德(Karl Freund)指出,由學術界和行業參與者設計的標杆工具MLPerf目前由谷歌和英偉達主導,但初創企業通常不會費心去完成所有這類測試,因為打造一個系統的成本最好花在別處。

十年磨一劍 英偉達能否掌控人工智慧的未來?

每個英偉達SuperPOD內有20個DGX人工智慧系統

英偉達在每年的MLPerf測試中都要超過谷歌的TPU。“谷歌發明MLPerf來顯示他們的TPU有多好,”英偉達解決方案架構和工程主管馬克·漢密爾頓(Marc Hamilton)說,“黃仁勳說,只要每次跑MLPerf測試時我們的GPU都能超過谷歌TPU就行,哪怕只有一點就很好。”

據稱,為了確保能在某次基準測試中名列前茅,英偉達將一臺超級計算機所搭載的DGX系統從36個升級到96個,這需要對整臺裝置重新佈線。為了儘快完工,工程師們直接剪斷了各種線纜,漢密爾頓說整套線纜價值100萬美元。這種瘋狂行為凸顯出基準測試的刺激作用,但也啟發英偉達對DGX系統進行重新設計。如今的DGX系統能以20個為一組自由組合,無需重新佈線。

轉戰邊緣推理

當涉及到基準測試和組裝超級計算機時,人們總是可以透過新增更多人工智慧晶片來提高效能。但對於另一種人工智慧計算,也就是邊緣推理則完全不同。

2020年,英偉達宣佈將以400億美元的價格收購英國晶片設計公司ARM,吸引了全世界的目光。要知道,後者的晶片架構被用於全球95%的智慧手機。但業內反響並不很積極。仍持有公司股份的ARM聯合創始人赫爾曼·豪澤(Hermann Hauser)稱這是一場“災難”,可能會破壞ARM在市場中的中立地位。世界各地的監管機構都在密切關注這筆交易。

ARM只設計晶片,並將智慧財產權授權給晶片製造公司。如果某個人工智慧晶片製造商需要一款CPU,他們可以從ARM獲得晶片設計許可,並按照自家規格進行製造。競爭對手擔心英偉達控制ARM後可能會限制相關合作,不過黃仁勳曾“明確”表示,英偉達將尊重ARM現有的開放模式。

邊緣推理晶片能夠將深度學習用於現實世界,而ARM正是這種晶片的主要設計者。英偉達收購ARM意味著可能對現有市場態勢產生巨大影響。在ARM的幫助下,英偉達可以憑藉GPU和邊緣推理方面的優勢地位在資料中心領域佔據主導地位。

什麼是邊緣推理?為了訓練和應用人工智慧模型,英偉達的高效能系統會對資料進行大量處理。但在人工智慧領域,還有推理這種更輕量級的任務,也就是使用訓練過的模型來解釋某些現實景象。比如無人駕駛汽車理解攝像頭看到的東西,一個智慧手機應用程式掃描使用者臉部,把貓耳朵貼在自拍照上,或者一個對醫學影像進行病理分析等等。由於訓練需要巨大算力,通常會在資料中心完成;但推理可以在資料中心、也可以在邊緣裝置上完成。

第一種推理在資料中心完成。當你問數字助理Alexa或Siri一個問題時,其會被傳送回亞馬遜和蘋果的伺服器進行轉錄並回復。第二種推理則發生在相機、汽車或智慧手機等終端使用者裝置中,這被稱為邊緣計算。第二種推理需要的算力不多,但處理速度要快。

英偉達目前主導著資料中心領域的推理工作。其A100利用資料進行訓練,而推理被虛擬化到更小的迷你伺服器中,在同一硬體上能同時完成50個或更多推理工作負載。這對AWS等提供人工智慧服務的科技巨頭很有幫助,因為多家公司可以使用相同硬體而且不會有資料洩露的風險。在邊緣計算領域,英偉達擁有用於無人駕駛汽車的DRIVE晶片和用於現場推理的EGX晶片,但低功耗晶片並不是英偉達的專長所在。如果你曾經使用過搭載英偉達顯示卡的遊戲膝上型電腦,就會發現其電池續航時間比Chromebook要短。但設計低功耗晶片是ARM最擅長的事情,這也是為什麼英偉達不惜斥資400億美元收購ARM的原因。

ARM在人工智慧領域的研究主要集中在兩個方面。首先,其將軟體框架整合到現有CPU上。為了應對更密集的工作負載,ARM開發了一種名為Ethos的神經處理單元(NPU)當作人工智慧加速器使用。ARM IP產品部門總裁雷內·哈斯(Rene Haas)說,使用Ethos-U55設計的裝置應該很快就會上市,因為獲得該設計許可的公司已經生產出了成品晶片。

有了邊緣推理,語音助手將不再需要將使用者語音上傳到AWS或蘋果伺服器進行處理,而可以基於本地智慧做出響應。哈斯說:“這使得工作可以在本地裝置上完成,在很多方面都有助於提高效率。”他指出,將資料在裝置和雲端之間來回傳送需要消耗電池能量。

英偉達負責歐洲、中東和非洲地區(EMEA)的副總裁戴維·霍根(David Hogan)表示:“很長一段時間以來我們都在談論物聯網,但這個願景直到現在才實現。”“這種轉型是我們收購ARM的計劃核心。”

打造人工智慧超級計算機

去年,英偉達解決方案架構和工程主管馬克·漢密爾頓(Marc Hamilton)花很多時間和精力打造一臺價值5000多萬美元的超級計算機,這就是“劍橋1號”。搭積木般的系統設計風格讓開發“劍橋1號”變得更容易。“劍橋1號”由一排排成組的DGX人工智慧系統組成,每組有20個DGX,被稱為SuperPod。而單個DGX售價19。9萬美元,堪稱一臺完整的人工智慧計算機,其中用8個A100晶片作為DGX計算系統核心,同時具有記憶體、網路和其他功能。

漢密爾頓說,“劍橋1號”建成後將是英國最強大的人工智慧超級計算機,在全世界排名第30位,但在英偉達打造的人工智慧超級計算機中只能排到第五。“劍橋1號”有80個DGX A100系統,而最大的Selene超級計算機有560個。

十年磨一劍 英偉達能否掌控人工智慧的未來?

英偉達的“劍橋1號”人工智慧超級計算機

雖然“劍橋1號”不是最快的,也不是最大的超級計算機,但它拿到了兩個第一。漢密爾頓稱其為世界上第一臺原生雲超級計算機,有類似於AWS的區劃功能,企業能夠使用相同硬體而不會有安全漏洞或資料洩露的風險。此外,“劍橋1號”也是英偉達唯一向外部合作伙伴開放的超級計算機,各個大學機構、醫療巨頭阿斯利康、牛津奈米孔和葛蘭素史克都可以在“劍橋1號”上執行自己的深度學習模型。

為什麼英偉達要打造超級計算機?一個原因是,英偉達需要超級計算機來吸引行內最優秀的人才。2016年,英偉達還沒有超級計算機,而Facebook和谷歌正在搶最好的人工智慧研究員。漢密爾頓說:“這並不是因為他們付的工資更高。而是因為谷歌和Facebook在運營業務方面有成千上萬的GPU,他們可以讓人工智慧研究員訪問這些GPU。”

現在,英偉達的超級計算機Selene是全球第五大計算機,僅次於日本的一臺、中國的一臺和美國擁有的兩臺。漢密爾頓表示,這意味著,如果你是一名想要接觸到最快人工智慧硬體的研究人員,完全可以來英偉達工作。

單純提高硬體算力有用嗎

在卡坦扎羅的40人實驗室裡,研究人員開發用於英偉達自家系統的人工智慧,但該實驗室也充當系統架構師的培養基地,讓他們得以瞭解深度學習模型未來可能如何工作。卡坦扎羅說:“如果你想為未來製造晶片,你想讓它在未來有用,你必須具備預測未來最重要的工作負載是什麼。”“如果你搞砸了,你就造錯了晶片。”晶片的設計和製造往往需要數年時間,因此這種研究很有必要。

如果開發的人工智慧模型以後不在GPU上執行,或者至少不能在GPU上執行,那會怎麼樣?英偉達的戴利承認有這種可能性,但由於大多數研究人員都在研究GPU,他認為這種想法不太可能成為現實。他說:“在新模型上線之前,我們通常都聽說過它,並有機會對其進行測試,確保其在我們的GPU上執行良好。”

其他人則不同意戴利的這種說法。他們認為GPU可能影響到深度學習模型發揮全部潛力。Cerebras公司的費爾德曼說:“每個人都在根據當今的技術調整自己的模型。”“我們最高興、最興奮的事情之一,是有一群正在編寫全新模型的客戶。”他說今年Cerebras將展示所謂的“GPU不可能完成的工作”例項。費爾德曼強調,GPU根本無法完成某些人工智慧工作。

Graphcore公司的圖恩則表示,研究人員早就抱怨,當今硬體已經成了絆腳石,影像人們思考更復雜的問題。圖恩說:“比如機率機器學習等想法仍然被擱置,因為目前GPU等硬體不允許這種想法向前發展。”“競爭的焦點在於英偉達能以多快速度升級GPU,還是用新的東西來實現這一點?”

麻省理工學院計算機科學和人工智慧實驗室研究員尼爾·湯普森(Neil Thompson)在人工智慧會議上注意到一個趨勢,研究人員暗示,計算能力的限制影響了他們的模型開發,限制了他們的選擇和資料集,因為他們無法負擔高昂成本、透過重新執行模型來解決問題。他說:“這真的很普遍。就深度學習的未來而言,這是一個非常大的問題。”

湯普森和同事分析了1058篇人工智慧論文,發現機器學習對算力的需求遠遠超過硬體改進或模型訓練的效率。長此以往,系統總有一天需要花費數億甚至數十億美元來進行訓練,這還沒有算其他成本。湯普森說:“使用更多GPU的問題在於,將GPU數每增加一倍,成本就會增加一倍,由此帶來的碳排放和環境汙染也會增加一倍。”

他認為,僅靠英偉達等公司的硬體解決方案都不足以阻止人工智慧創新陷入困境。相反,研究員需要開發更高效的模型,更好利用現有模型。諸如稀疏性(忽略資料集中的零以節省算力)之類的想法可以提供幫助,因為這種方法可以更有條理地處理資料,只將其與相關引數進行比較。另一個想法是將人們從模型中學到的東西提煉成更輕量級的方程,只執行模型中和問題相關的部分。

如果沒有這方面的努力,人們將需要更大的資料中心。但人工智慧不應侷限於那些負擔得起超級計算機的人。湯普森說,在從事高階深度學習研究工作的大學中,“計算機能力較弱的大學越來越少”。“現在仍然有相當多的機構可以參與人工智慧研究,但是隨著算力的增加,玩家數量越來越少。我們已經到了有些人被排除在外的地步。”

削減成本可能是初創公司擊敗現有公司贏得客戶的一種方式。AWS去年將Habana Labs的人工智慧晶片新增到其雲服務中,稱Habana Labs人工智慧系統的執行成本要低40%。Habana Labs首席商務官埃坦·麥地那(Eitan Medina)表示:“要讓人工智慧惠及所有人,而不僅僅是富人,你真的需要提高性價比。”

人工智慧已經存在偏見問題,而硬體訪問方面的不平等加劇了這一問題。英偉達新興領域主管凱特·卡洛(Kate Kallot)表示:“這意味著我們觀察問題會存在片面性。”“如果你忽略了世界上很大一部分人口……那我們如何能解決世界各地的挑戰?”她表示許多人工智慧研究人員正將工作轉向應對貧困和氣候危機等挑戰,但訪問硬體的問題將在很大程度上影響新興市場。

除此之外還有其他挑戰。最近晶片製造一直受到限制。歐盟最近承諾,到2030年計劃生產全球五分之一的高階晶片。今年3月,英特爾宣佈計劃首次在美國開設兩家新工廠,並代工晶片。

隨著這些障礙被克服,晶片會繼續升級,人工智慧將擴充套件到生活中的方方面面。在未來,智慧不僅僅意味著聯網,還意味著嵌入人工智慧。“它將無處不在,”ARM的哈斯說。“在未來幾年內,它將無處不在地出現在每一個計算應用程式中。”(皎晗)

「矽谷封面」系列是為科技圈大咖訪談、重磅研究報告和大公司深度調查等彙總的欄目,旨在為科技資訊愛好者提供最有思想深度的優質好文。