選單

支援NVIDIA GPU加速CML的模型開發

在進行復雜或嚴格的企業機器學習專案時,資料科學家和機器學習工程師會大規模體驗各種程度的處理滯後訓練模型。雖然對小資料進行模型訓練通常可能需要幾分鐘,但對大資料進行相同的訓練可能要花費數小時甚至數週。為了克服這個問題,從業人員經常使用NVIDIA GPU來加速機器學習和深度學習工作負載。

CPU和GPU可以串聯用於資料工程和資料科學工作負載。典型的機器學習工作流程涉及資料準備、模型訓練、模型評分和模型擬合。從業人員可以使用現有的通用CPU,也可以使用GPU端到端地加速工作流程。儘管過去很難有效地利用GPU,但如今在Cloudera資料平臺(CDP)上啟用此功能已成為關鍵。資料科學家可以透過CDP私有云基礎版,在任何雲上和本地的CDP中本地利用NVIDIA一流的GPU計算框架。Cloudera與NVIDIA一起使最佳化資料科學工作流程和執行繁重的計算流程比以往任何時候都更加輕鬆。

在本部落格系列文章中,我們將探索在CDP上的Cloudera Machine Learning(CML)中使用GPU進行訪問、利用和受益的選項。

在本文中,我們將為CML Workspace設定和配置GPU資源。

在CML中使用GPU

首先,登入到CDP控制平面,然後單擊“機器學習”。

支援NVIDIA GPU加速CML的模型開發

透過單擊Provision Workspace建立一個新的機器學習工作區。

支援NVIDIA GPU加速CML的模型開發

命名工作空間,然後選擇要使用的環境。單擊底部的高階選項。在這裡,您可以為工作區指定GPU。

支援NVIDIA GPU加速CML的模型開發

選擇您要使用的GPU例項型別。

支援NVIDIA GPU加速CML的模型開發

選擇GPU例項型別需要仔細考慮預期在工作區中執行的GPU工作負載的數量和型別。

________________________________________________________________________________

GPU選擇

不同的例項型別將具有不同的GPU例項。通常,較新的GPU將具有更多功能並更快地執行程式碼,但是可能需要重新編譯庫以最好地利用這些功能。在撰寫本文時,AWS EC2 P4例項中可用的A100是可用的最新一代GPU。不同的GPU也具有不同的RAM容量,因為GPU VRAM通常是資料處理的主要約束,因此確保您選擇一個理想地適合其VRAM中的所有資料的GPU模型是另一個考慮因素。

一般的經驗法則是,選擇可以負擔的最新一代GPU例項,併為其程式設計提供最大數量的GPU。對於機器學習應用程式,利用多個GPU有時需要進行復雜的程式碼更改,因此請考慮採用這種用例是否能證明額外的工程工作是合理的。您為機器學習應用程式選擇的GPU通常還需要能夠完全適應您正在其上訓練的模型。使用NVIDIA RAPIDS和Spark 3 GPU應用程式,確保您有足夠的VRAM來處理所有資料而不會浪費處理成本是主要考慮因素。

________________________________________________________________________________

選擇GPU自動縮放範圍。

支援NVIDIA GPU加速CML的模型開發

透過設定自動縮放範圍,您可以配置可以在CML工作區中執行的最小例項數和最大例項數。執行例項的數量將根據GPU工作負載的數量和資源要求進行動態調整。

選擇“自動縮放範圍”時需要權衡取捨。當自動縮放範圍從零開始時,第一個GPU工作負載將需要幾分鐘的時間來啟動。如果您需要即時計算來進行實時專案,那麼這是不理想的。在這段時間內,將提供一個新的GPU例項並將其附加到CML工作區。

設定更高的最小範圍將在工作空間建立期間預配置GPU例項,並使工作負載在幾秒鐘內啟動。無論實際資源使用情況如何,擁有可用的GPU例項都會帶來額外的運營成本

支援NVIDIA GPU加速CML的模型開發

建立一個新專案並啟動GPU會話:

支援NVIDIA GPU加速CML的模型開發

如果將工作空間的最小自動縮放範圍設定為零,我們將需要等待幾分鐘,同時第一個GPU節點將被置備並新增到叢集中:

支援NVIDIA GPU加速CML的模型開發

設定好之後,我們可以看到有2個GPU可用:

支援NVIDIA GPU加速CML的模型開發

同時,在CML儀表板上,我們可以看到計算資源的消耗和可用性:

支援NVIDIA GPU加速CML的模型開發

工作空間消耗/可用資源:

支援NVIDIA GPU加速CML的模型開發

還有更多

在本文中,我們回顧瞭如何為CDP中的Cloudera Machine Learning Workspaces配置和配置GPU。接下來,我們將回顧不同的選項和構建塊以端到端地利用GPU。

開始使用GPU加速的機器學習技術在現在CDP,你就可以開始在這裡。

原文作者:Peter Ableda