英偉達A100霸榜MLPerf，打破8項AI基準測試紀錄

芯東西（公眾號：aichip001）

作者 |

高歌

編輯 |

心緣

芯東西7月1日報道，今天，MLPerf釋出了最新的1。0基準測試結果。MLPerf是當前全球最具影響力的AI計算基準評測組織，由圖靈獎得主大衛·帕特森（David Patterson）聯合谷歌、斯坦福、哈佛大學等單位共同成立，每年組織全球AI訓練和AI推理效能測試併發榜。目前，MLPerf的覆蓋了計算機視覺、自然語言處理、推薦系統、強化學習等工作負載和場景。

在MLPerf 1。0測試中，共有8種工作負載，與之前相比增加了會議識別RNN-T和醫學影象劃分UNet-3D兩種。其餘6種工作負載為自然語言處理網路BERT、深度學習推薦模型DLRM、物件檢測網路SSD和Mask R-CNN、強化學習網路MiniGo和用於影象分類的ResNet-50。

戴爾、富士通、Gigabyte、浪潮、聯想、Nettrix和Supermicro等7家廠商採用了英偉達A100 GPU，推出了12套商用系統，佔所有提交作品的3/4。英偉達及其合作伙伴也是唯一進行了全部8項測試的企業。英偉達資料中心計算產品管理高階總監Paresh Kharya也對芯東西等媒體分享了，DGX SuperPOD和DGX A100在測試中的表現。

▲MLPerf8種測試工作負載

一、軟硬體齊下手，1年提升3。5倍分數

與去年相比，基於英偉達DGX SuperPOD和DGX A100的系統測試表現均有較大提升。DGX A100是英偉達用於AI工作負載的通用系統，基於英偉達A100 GPU構建。DGX SuperPOD則是英偉達的AI超級計算機方案，採用了基於DGX A100系統和Mellanox網路架構。

在DLRM（深度學習推薦模型）測試中，基於DGX SuperPOD系統得分更是提升了3。5倍。

▲英偉達MLPerf基準測試資料提升

之所以分數提升較大，很大程度上是因為英偉達在硬體與軟體2方面的提升。

具體來說，英偉達透過CUDA Graphs軟體包來啟動完整的神經網路模型，替代了過去CPU將AI模型分為許多獨立部分的做法。CUDA Graphs，是英偉達新的非同步任務影象（Task-Graph）程式設計模型，可以提升核心啟動和執行的效率。

另外，英偉達的SHARP（網路內計算資料壓縮技術）可以把多個通訊作業整合到網路交換機中，減少了CPU的網路流量和等待時間。

英偉達也加大了GPU互連規模，可連線4096個GPU，高於很多系統。此外，A100 GPU的記憶體頻寬也有所提升，達到了2TB/s。

根據最新的TOP500排名，Selene是世界上最快的商業人工智慧超級計算機之一，由英偉達開發構建，採用了NVIDIA DGX SuperPOD方案，其算力能夠達到63。460 petaflops，也創下了多項紀錄。實際上，英偉達及其合作伙伴在商用系統的最新測試中，在所有八個基準測試中都創下了紀錄。