沒有“鈔能力”，如何打破AI實踐中的資源限制與壁壘？

深度學習模型和資料集的規模增長速度已經讓 GPU 算力也開始捉襟見肘。

2021 年初，谷歌釋出了引數量為 1。6 萬億的語言模型Swith Transformer，將 GPT-3 創下的引數量記錄（1750 億）推至新高。

而在谷歌將工業界新寵 AutoML 的思想應用到 NLP 領域找到進化版的 Transformer 的工作中，其用於英語到德語翻譯的 BLEU 分數提高了 0。1，卻花費了 3。2 萬 TPU 小時，雲計算費高達 15 萬美元。如果把模型部署出去進行推理，隨著時間的增長，它的能耗是百倍、千倍的增長，GPU 叢集訓練、推理背後巨大的能源消耗無法令人忽視。

這些大模型的出現讓普通研究者越發絕望：沒有「鈔能力」、沒有一大堆 GPU 就做不了 AI 研究了嗎？研究者們開始思考：如何讓這些大模型的訓練變得更加接地氣？也就是說，怎麼用更少的卡訓練更大的模型？

為了解決這個問題，來自微軟、加州大學默塞德分校的研究者提出了一種名為「 ZeRO-Offload 」的異構深度學習訓練技術，可以在單個 GPU 上訓練擁有 130 億引數的深度學習模型，讓普通研究者也能著手大模型的訓練。ZeRO-Offload 透過將資料和計算從 GPU 解除安裝到 CPU，以此減少神經網路訓練期間 GPU 記憶體佔用的方法，該方法提供了更高的訓練吞吐量，並避免了移動資料和在 CPU 上執行計算導致的減速問題。

在算力方面，隨著人工智慧應用日益成熟，文字、圖片、音訊、影片等非結構化資料的處理需求呈指數級增長，資料處理過程從通用計算逐步向異構計算過度，GPU也不再是唯一的選擇。

前幾年關於晶片算力這一概念的討論，多認為理論上的計算峰值就是算力，但現在，業內有觀點指出，在討論算力的演進時應該少關注器件利用率。

傳統晶片效能指的是PPA，包括Power、Performance、Aera（效能、功耗、面積），即一秒鐘執行多少指令，在AI晶片上則是討論每瓦有多少AI計算，比較主流的指標是TOPS/Watt和TOPS/$。

但演算法在不斷演進，器件的利用率由架構和編譯器決定，架構負責把演算法轉化為相對架構而言最優的質量、序列和執行模式。演算法+晶片需進行聯合最佳化，才能兼顧計算架構和演算法設計。

眾所周知，卷積操作（convolution）與自注意力操作（self-attention）是深度學習兩大核心的基礎網路計算單元（或稱為模型運算元）。卷積操作透過線性乘子，提取影象區域性特徵；自注意力操作透過高階乘子運算，提取影象全域 / 區域性的特徵關聯特性。

兩種運算元成為深度學習兩大重要網路架構演化——CNN 與 Transformer 的計算基石。兩種運算元在影象特徵提取與語義抽象方面的互補性不言而喻：線性 vs。高階，區域性 vs。全域性。因此，能否設計一種包含這兩種操作的融合運算元並使其發揮互補優勢，一直是深度學習架構研究者熱衷的研究方向之一。然而，由於卷積運算與自注意力運算在計算模式上的異構性，這項任務存在巨大的挑戰。

粗粒度的組合（本質上就是兩路計算並聯）會導致其組合後網路形態可用性下降。具體來說，卷積和 self-attention 運算模式存在較大差異，兩者同時存在會導致網路結構不規則，進而影響網路推理效率，並不為目前一些工業界通用的晶片計算架構所友好支援。同時組合後的運算元在算力上也存在巨大的挑戰。

針對這些挑戰，2021年6月上海交大 - 華為海思聯合團隊在 arXiv 上發表了「X-volution： On the Unification of Convolution and Self-attention」，首次在計算模式上統一了這兩大基礎運算元，並在推理階段歸併成一個簡單的卷積型運算元：X-volution。

AI的實際應用尚處於早期，對於大多的AI開發者來說，「從無到有」比「從有到優」要重要得多。能在有限的資源下跑通業務流程，比跑得姿態優雅要更重要，模型精度雖然是越準確越好，但當精度達到可用需求之後，精度就不再起決定性作用。

在這樣的背景下，打破 AI 實踐中的資源限制與壁壘的重要性也越發顯著。在即將到來的一年裡，在 AI 演算法的工程最佳化與效能提升的道路上，將有哪些值得探索的方向呢？

2022 年 1 月 24 日晚 7 點，在機器之心年度特別策劃「驅動未來的 AI 技術 —— 2021-2022 年度 AI 技術趨勢洞察」的「工程專場」來自華為昇騰 CANN 的首席架構師閆長江老師、一流科技 OneFlow 創始人袁進輝博士及北京大學資料與智慧實驗室崔斌教授指導的河圖團隊負責人苗旭鵬，三位嘉賓將做客機器之心「2020-2021 年度 AI 技術趨勢洞察」直播間，分別透過技術報告介紹自監督深度學習、幾何深度學習的最新進展與思考、並共同就「如何突破 AI 實踐中的資源限制與壁壘？」等話題進行探討。

嘉賓簡介

技術報告：淺談異構計算架構 CANN 在軟硬體結合最佳化效能提升上的幾點設計思路

閆長江，華為昇騰 CANN 首席架構師

閆長江，華為昇騰 CANN 首席架構師，負責昇騰 AI 處理器與異構計算架構 CANN 的架構設計，支撐華為昇騰處理器的市場商用，在資料通訊和計算機體系架構設計領域有超過 20 年的行業經驗積累。

技術報告：北大河圖在稀疏大模型訓練架構上的幾點探索

北京大學資料與智慧實驗室河圖團隊負責人苗旭鵬

苗旭鵬，北京大學計算機學院 2017 級博士生，來自於北京大學資料與智慧（PKU-DAIR）實驗室，師從崔斌教授。他的研究興趣主要包括機器學習 / 深度學習系統、分散式最佳化、GPU 平行計算、圖表示學習等，在 SIGMOD、VLDB、KDD 等國際頂級會議和期刊上發表了 10 餘篇學術論文。他是北大自研的分散式深度學習系統 - 河圖（Hetu）的設計者和負責人，此前他還參與了開發了工業級開源分散式機器學習系統 Angel。

趨勢圓桌：如何打破 AI 實踐中的資源限制與壁壘？

閆長江，華為昇騰 CANN 首席架構師

苗旭鵬，北京大學資料與智慧實驗室河圖團隊負責人（崔斌教授指導）

袁進輝，一流科技 OneFlow 創始人

袁進輝，2008 年於清華大學計算機係獲得工學博士學位（優秀博士學位論文獎），原微軟亞洲研究院主管研究員（院長特別獎獲得者），於 2017 年創立北京一流科技有限公司，致力於打造新一代深度學習框架，兼任之江實驗室天樞開源開放平臺架構師，北京智源人工智慧研究院大模型技術委員會委員。

2022 年 1 月 24 日 —— 1 月 28 日精彩議程如下

作為「與 AI 俱進，化時光為翎」機器之心 2021-2022 跨年特別策劃中的重要組成部分，「機器之心 2021-2022 年度 AI 趨勢大咖說」聚焦「驅動未來的 AI 技術」與「重塑產業的 AI 科技」，推出線上分享，邀請行業精英、讀者、觀眾共同回顧 2021 年中的重要技術和學術熱點，盤點 AI 產業的年度研究方向以及重大科技突破，展望 2022 年度 AI 技術發展方向、AI 技術與產業科技融合趨勢。

2022 年 1 月 24 日（週一）至 1 月 28 日（週五）每晚 7 點至 9 點，近 20 位高校教授、技術專家及技術企業高管將做客機器之心「2020-2021 年度 AI 技術趨勢洞察」直播間，共同探討「通往第三代人工智慧的理論之路如何走？」、「通用（大）模型的最後一公里」、「如何突破 AI 實踐中的資源限制與壁壘？」、「構建元宇宙基礎設施的 AI 技術」和「通向可信人工智慧的技術路徑」五個與 AI 技術人息息相關話題，洞察 AI 技術在「AI 算法理論」、「ML 模型架構」、「AI 演算法工程化」及「熱點 AI 應用技術」四大方面的發展趨勢與潮水所向。關注機器之心機動組影片號，1 月 24 日晚 7 點開播！

沒有“鈔能力”，如何打破AI實踐中的資源限制與壁壘？

猜你喜歡

推薦文章