選單

英偉達新技術將NeRF模型訓練速度提高60倍,最快只需5秒

近日,英偉達使用一種新技術將訓練 NeRF 模型的時間縮減到僅需 5 秒。

對此,任職於谷歌的科學家喬恩·巴倫(Jon Barron)在 Twitter 上寫道:“18 個月前,訓練 NeRF 要 5 小時;2 個月前,訓練 NeRF 仍要 5 分鐘;而現在,英偉達的最新技術竟將訓練 NeRF 的時間縮減到 5 秒!”

據瞭解,英偉達能夠取得這一成績的主要原因是採用了一種被稱作多解析度雜湊編碼(Multiresolution Hash Encoding)的技術。同時,其在一篇論文《基於多解析度雜湊編碼的即時神經圖形基元》(Instant Neural Graphics Primitives with a Multiresolution Hash Encoding)中對這一新技術做了詳細說明。

英偉達表示:“計算機圖形基元基本上由引數化外觀的數學函式表示。數學表示的質量和效能特性對於視覺保真度至關重要。”其希望在保持快速和緊湊函式表示的同時,還能捕獲高頻、區域性的細節。

為了達到上述要求,英偉達採用了多解析度雜湊編碼技術。據英偉達稱,該技術獨立於任務之外,有著自適應性和高效性兩大特性。其只有兩個值進行配置,分別為引數的數量 T 和所需的最佳解析度 Nmax。

利用該技術,只需經過幾秒鐘的訓練,便能在各種任務中達到較高的質量。

英偉達新技術將NeRF模型訓練速度提高60倍,最快只需5秒

圖 | 在一個 GPU 上對多個任務神經圖形基元的即時訓練演示(來源:GitHub)

利用 NeRF,能夠將一些靜態圖轉成十分真實的 3D 影象。不過,NeRF 相當消耗算力,成本較高,特別是在渲染方面。

據論文中表述,“引數化全連線神經網路的神經圖形基元的訓練和評估”成本相對較高,為了將成本降低,英偉達採用一新的通用輸入編碼,可以在一個較小的網路,且不降低質量的情況下,顯著減少浮點和記憶體訪問操作的數量。英偉達因此實現了“幾個數量級的組合加速,可以在幾秒鐘內訓練高質量的神經圖形基元。”

英偉達在神經輻射場(Neural Radiance Fields,NeRF)、神經輻射快取(Neural Radiance Caching,NRC)、十億畫素影象(Gigapixel Image)、神經符號距離函式(Neural Signed Distance Functions,SDF)等四個較為有代表性的任務中驗證了多解析度雜湊編碼技術。

這裡重點介紹一下 NeRF 任務。

英偉達新技術將NeRF模型訓練速度提高60倍,最快只需5秒

動圖 | 不同編碼的重建質量演示(來源:GitHub)

上圖每個影象下面顯示的是可訓練引數的數量(神經網路權重 + 編碼引數)和訓練時間。英偉達表示,由於引數更新的稀疏性和較小的神經網路,訓練速度得到提升。另外,隨著引數數量的增加,也可進一步提高近似質量,而訓練時間卻不會明顯增加。

同時,英偉達的技術還支援現實 360 度全景場景和“具有較多模糊、鏡面反射表面的複雜場景”,且都能夠對它們進行實時渲染,並“在 5 分鐘內透過隨意捕獲的資料進行訓練”。

影片 | iPhone 拍攝的 360 度全景場景(來源:GitHub)

window。DATA。videoArr。push({“title”:“英偉達新技術將NeRF模型訓練速度提高60倍,最快只需5秒”,“vid”:“p33194p3jer”,“img”:“http://puui。qpic。cn/vpic/0/p33194p3jer。png/0”,“desc”:“”})

影片 | 34 張照片構成的複雜場景(來源:GitHub)

值得一提的是,多解析度雜湊編碼技術還支援從體積路徑跟蹤器的噪聲輸出中訓練類似 NerF 的輻射場。在訓練期間,光線被實時饋送到網路,以學習一個去噪的輻射場。

最後,再對另外三個任務做一定簡述。

動圖 | 三角波編碼(左)和多解析度雜湊編碼(右)顯示結果對比(來源:GitHub)

從上面影象對比中,可以看出,新的多解析度雜湊編碼能夠使網路學習包括陰影區域在內的更多細節。

window。DATA。videoArr。push({“title”:“英偉達新技術將NeRF模型訓練速度提高60倍,最快只需5秒”,“vid”:“u3319u3xa10”,“img”:“http://puui。qpic。cn/vpic/0/u3319u3xa10。png/0”,“desc”:“”})

影片 | 十億畫素影象任務(來源:GitHub)

上圖展示的是十億畫素影象任務的實時訓練進度。該任務主要指的是多層感知器(Multi-Layer Perceptrons,MLP)學習“從 2D 座標到高解析度影象的 RGB 顏色的對映”。

相比自適應座標網路(Adaptive Coordinate Networks,ACORN),英偉達的方法要達到 38。59 分貝的峰值信噪比(PSNR),需要 2。5 分鐘的訓練,而 ACORN 則要經過 36。9 小時。

英偉達新技術將NeRF模型訓練速度提高60倍,最快只需5秒

動圖 | 對各種 SDF 資料集的實時訓練進度(來源:GitHub)

值得一提的是,神經符號距離函式任務的訓練資料是從地面實況網格動態生成的,並採用了 NVIDIA OptiX 光線追蹤引擎。

許多圖形問題依賴於特定任務的資料結構的稀疏性或平滑性,而多解析度雜湊編碼則提供了一個實用的基於學習的替代方案。它會自動關注相關的細節,甚至被用於時間受限的設定,如線上訓練和推理。

而在神經網路輸入編碼的背景下,它也可以是一種臨時替代,例如,加速 NeRF 幾個數量級。

英偉達證明,對於許多圖形應用程式來說,單 GPU 訓練時間是可以達到以秒為單位的。這使得神經方法可以應用到更多的地方。

-End-

參考:

https://nvlabs。github。io/instant-ngp/assets/mueller2022instant。pdf

https://nvlabs。github。io/instant-ngp/