AI編解碼優勢顯著，未來將與傳統方法並行發展 | 專訪高通AI研究方向負責人侯紀磊

機器之心報道

作者：杜偉

與傳統編解碼相比，AI 賦能編解碼能帶來哪些方面的增益？高通又在這方面做了哪些技術創新和應用？近日，機器之心在與高通工程技術副總裁、人工智慧研究方向負責人侯紀磊博士的訪談中，得到了這些問題的答案。

隨著通訊和網際網路技術的進步，特別是智慧手機的普及以及 4G、5G 移動通訊技術的成熟與發展，語音影片聊天、影片遊戲等多樣化的休閒娛樂方式層出不窮，普通使用者對語音與影片的消費需求也在不斷增長。

2020 年《思科視覺化網路指數：預測和趨勢（2017-2022 年）》報告和 WhatsApp 相關資料表明，人們創造和消費的語音與影片內容體量巨大。其中，網際網路平均每秒傳輸 100 萬分鍾時長的影片、線上影片佔所有消費者使用的網際網路流量的 82%、Facebook 平臺日均影片觀看量為 80 億、平均每日產生 150 億分鐘時長的 WhatsApp 通話…… 如何更高效地處理語音和影片內容（包括壓縮和編解碼）成為近年來的重要研究課題之一。

就影片編解碼而言，它在可用的計算資源內，追求儘可能高的影片重建質量和儘可能高的壓縮比，以達到頻寬和儲存容量的要求。很長時間以來，基於 CPU 的軟體編解碼技術（也稱軟解碼）一直主導著市場，雖然易於使用，但會佔用 CPU 資源，提升功耗，編解碼效率不高，容易出現卡頓、破圖等異常，影響其他應用的正常執行。同時，利用 GPU 或者專用處理器來對影片進行編解碼（也稱硬解碼）成為另一種選擇，不僅可以實現良好的編碼效能，而且使用顯示卡編碼不會佔用太多系統資源，也就不會影響應用的使用效能。

不過，日益增長的語音和影片消費需求對未來的語音和影片編解碼器提出了更高的要求。在這種趨勢下，基於 AI 的編解碼開始「入場」，並陸續出現了以神經網路、機器學習為主導的編解碼技術，展現出了媲美傳統編解碼器的壓縮效能。

那麼，基於 AI 的端到端編解碼技術何時開始在學界和業界興起？與 H。265/H。266 等傳統編解碼技術相比，AI 在哪些方面帶來了優勢？AI 語音和影片編解碼各自面臨的主要挑戰是什麼？AI 編解碼的前景又如何呢？

機器之心日前專訪了高通工程技術副總裁、人工智慧研究方向負責人侯紀磊博士，他不僅對以上問題進行了詳細解讀，還介紹了高通在 AI 編解碼領域的最新技術進展以及相關應用。

侯紀磊博士畢業於美國加州大學聖迭戈分校，現為高通公司工程技術副總裁，並擔任人工智慧研究方向負責人。他於 2003 年加入高通，在技術創新、標準化以及 3G /4G/5G 無線通訊標準領域的產品商用方面做出了廣泛深入的貢獻。

侯紀磊博士主要負責構建人工智慧 / 機器學習的研究基礎架構，推動面向下一代硬體和軟體平臺的技術創新，並領導惠及垂直技術發展的前瞻性研究工作。此前，侯紀磊博士曾在 2011 至 2017 年間領導高通公司中國研發團隊。任職期間，他大幅拓展了高通公司在中國的研發工作，中國研發團隊在他的領導下成為了一股強大的本地研究力量。他還啟動了 5G 研究和地面機器人專案，惠及高通公司在大中華區的業務。

此外，侯紀磊博士還是 IEEE 高階會員，曾多次被選入和參與由美國同 / 或中國國家工程院組織的工程前沿（FOE）專題研討會。

AI 編解碼未來將長期與傳統編解碼並行發展

針對 AI 編解碼技術的興起，侯紀磊博士表示，「只針對靜止的影象而言，最早相關論文是在 2015 年底到 2016 年初發布的；最早專門介紹影片的 AI 編解碼器技術的論文出現在 2018 年左右。從 2018 年至今，短短 3 年時間，AI 編解碼技術已經走過了傳統編解碼技術過去 30 年甚至更長時間走過的過程。」

短短 3 年的時間也驗證了 AI 在編解碼領域的強大能力。但是，效果好不好，有比較才更直觀。在效能上，

基於 AI 的端到端壓縮技術已經初步具備了與傳統的 H.265 和 H.266「相比較」的能力

。侯博士進一步解讀了這種能力在哪些方面得到了充分的體現甚至具有的優勢。

一方面，是端到端編解碼的優勢，侯博士以主流報紙的手機 APP 為例進行說明。使用者下載應用時，應用內部已包括基於 AI 的編解碼核——專門針對報紙提供的數字化影片內容進行最佳化的核。這個核在理論上不需要直接透過標準化的過程，而是該報紙跟高通或者相關廠商直接合作進行最佳化就可以完成。在 APP 安裝之後，編解碼器可以不斷地進行升級，並且不需要依賴專用 ASIC，只需要一個通用 AI 加速器就能支援，所以內容的最佳化以及編解碼器的升級和部署過程都呈現非常靈活的模式。

這種靈活的模式將來會使得端到端的 AI 編解碼器具備強大的吸引力。

另一方面，基於 AI 的端到端編碼器，易於升級和部署，能夠針對特定的資料分佈進行最佳化。這些實際上都是 AI 端到端編解碼器非常具有優勢的地方，所以侯博士認為，「AI 端到端編解碼一定是有自己的生命力的。」

關於 AI 在影片壓縮領域的輔助作用，侯博士也表達了自己的觀點——AI 作為輔助方式並非沒有意義，實際在標準方面，AI 具備「幫助傳統壓縮演算法的巨大潛力」。

基於 AI 的壓縮技術具有 8 個方面的顯著優勢。

最後，侯博士認為，「從研發和探討的模式來看，

傳統和基於 AI 的編解碼技術將在未來相當長的一段時間裡呈現出並行發展的態勢。

」

高通在 AI 影片編解碼領域做了哪些努力？

一直以來，高通在 AI 賦能影片編解碼方面做了很多嘗試和努力。

在全新的基於機器學習的影片編解碼器研究中，一般分為 I 幀（即幀內編碼幀）、P 幀（即幀間預測編碼幀）和 B 幀（即雙向預測編碼幀）。

高通首先在 B 幀預測編解碼方面提出了一個被稱為「B-EPIC」的解決方案，該方案結合了雙向運動補償和插幀這兩種 B 幀編解碼模式的優勢

。

具體來講，高通先做一遍插幀，把兩個參照幀進行增差值操作，並在這個插值的基礎上覆用前面 P 幀的編解碼器。值得注意的，這裡不只是複用 P 幀編解碼器的架構，還複用了它的權重，相當於在插幀基礎上依然做了運動補償。此外，對於運動向量（motion vector）來說，這種做法使其位元流得到了更好的最佳化，所以在最終的率失真效能上得到更好地提升。

總之，無論是從訓練層面的有效性還是從傳輸過程中位元數的節約上，高通的 B-EPIC 都是一種非常好的方法。

在與傳統 H。265 採用的 FFmpeg、谷歌研究院感知團隊 CVPR 2020 論文中的端到端 SSF（Scale-Space Flow）影片壓縮方案相比，高通 B-EPIC 表現出了顯著的效果提升。尤其是相較於谷歌 SSF，B-EPIC 將 BD 率降低了 29%。

其次，高通還提出

「透過例項自適應影片壓縮過擬合」

。這樣做的編碼方式要平衡好兩點，一方面，由於這樣的過擬合自適應，編碼的位元流有相當大的縮減；另一方面，我們必須對模型的增量進行定期更新，由此構成一個損失。最終要把這兩個效果疊加在一起，觀察最終的總體位元量以及與基準位元流位元量之間的比較。如下圖右所示，如果左側總位元流較右側小很多，則意味著基於單個影片例項過擬合單個模型的做法是有成效的。

同樣地，相較於 H。265 採用的 FFmpeg、谷歌 SSF，高通的方案分別將 BD 率降低了 29% 和 24%。並且，這種例項過擬合方案適合部署於移動端，在將解碼複雜度降低 72% 的同時，仍能保持同等 SOTA 結果。

最後，

高通在其內部研發中比較好的展現是基於語義感知的影象或影片壓縮

。這種語義感知在於基準的編碼方式和位元的分佈，如果在做壓縮的時候基於語義感知的結果，則對位元的分類可以實現更加有效和智慧的分配，也能在細節描述上展現更好的效果。下圖可以清楚地看到基準位元分配與語義感知位元分配的差異：

圖中谷歌的論文（SSF）採用的是非基於語義感知的、比較均勻的壓縮方式——即超先驗 AE。從下圖右的位元率相對 PSNR 的對比可以看到，無論是前景還是背景，這種壓縮方法的 PSNR（峰值信噪比）基本上比較接近。但是，在為關注區域 ROI 分配更多位元之後，不僅非關注區域的 PSNR 降低相對有限，而且前端關注區域的 PSNR 有了非常大的提升，從而使得影象或影片的主觀效果出現很大的提升。

高通表示，這種基於語義感知的壓縮方法還將進一步擴充套件至影片壓縮領域。

除了 AI 編解碼技術上的創新之外，高通在 6 月份已經展示了針對實時終端側的神經影片解碼，實現了業界首款在商用智慧手機端實時執行、基於軟硬體結合的神經幀內影片解碼器，並在接近 720p HD 解析度的影片上實現了 30 fps 以上的實時解碼。

神經幀內影片解碼‍展示。

侯博士表示，「預計今年年底在高通驍龍技術峰會或者同期 NeurIPS 會議上將會展示幀間解碼器技術。」

相較語音，影片編解碼更復雜，挑戰也更多

首先是語音編解碼器，它基本上用在實時通訊，這就決定了編解碼器需要同時操作，即編碼器和解碼器要同時具備實時性。從實現的角度來看，語音編解碼器通常放在相對低成本的處理器上實現，對於複雜度的要求尤為苛刻。所以侯博士認為，

語音編解碼器的挑戰更多地來自於實現的複雜度

。

相比之外，影片編解碼器面臨的挑戰更多，主要有以下兩個方面：

其一，從宏觀角度來看，基於影象、影片和 3D 模型的 AI 代表了計算機視覺領域三個主要的方向，其中影片 AI 研發處於早期階段。並且，影片壓縮在整個影片 AI 研發中又是相對早期的，影片編解碼正是屬於這個範疇。所以基於 AI 的影片編解碼，在技術上需要進一步打磨，還有很長的路要走。

其二，影片編解碼是一種更復雜的編解碼系統，包括要做幀內和幀間處理。相較於語音，影片編解碼還需要進行更多熵編碼。所以整體來看，

無論是從設計、最佳化還是最終實現的角度，影片編解碼都是一個更加龐大的系統，具有更高的複雜度

。

此外，從近期來看，基於 AI 的編解碼技術需要解決的比較大的挑戰有哪些呢？侯博士從三個方面對這個問題進行了詳細的解答。

首先，從最終的商用落地的訴求來講，如果基於 AI 的編解碼器，能夠放在通用的 AI 加速器，而不是專用處理器上面，那麼如何控制複雜度、利用並行度以及很好地實現低位定點，這些都是非常大的挑戰。舉例而言，高通今天可以實現 720P 的神經幀內影片解碼，以後升級為支援 1K、2K 或 4K 的話，複雜度就會大大增加。

其次，對於影象而言，透過 GAN 的方式已經能夠很好地生成位元流中沒有的視覺細節，但針對影片流卻沒有一個特別好的方法。在生成影片流細節的時候需要考慮：幀間或時域上能不能保持連續性和穩定性？這是一個比較難的課題。此外，在這個角度上，如何在一個統一客觀的感知質量測度上，進行基於 GAN 的模型訓練和生成，客觀來講這是一個未知挑戰，同時也是努力的方向；

最後，尤其針對影片而言，無論 AI 編解碼器有怎樣的優勢，一定會涉及與 H。265/H。266 比較的問題。但如何比較呢，尤其是在標準上怎麼比？最終，我們還是要在率失真方面實現大幅度的進步，這樣最終可以使基於 AI 的編解碼器實現廣泛的應用，這是一個基礎的、必要的條件。

機器之心 · 機動組

機動組是機器之心發起的人工智慧技術社群，聚焦於學術研究與技術實踐主題內容，為社群使用者帶來技術線上公開課、學術分享、技術實踐、走近頂尖實驗室等系列內容。機動組也將不定期舉辦線下學術交流會與組織人才服務、產業技術對接等活動，歡迎所有 AI 領域技術從業者加入。

AI編解碼優勢顯著，未來將與傳統方法並行發展 | 專訪高通AI研究方向負責人侯紀磊

猜你喜歡

推薦文章