選單

開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了

機器之心專欄

機器之心編輯部

助力 AI 數字人落地,FACEGOOD (量子動力)正式開源語音驅動表情技術 Audio2Face 技術。本文是對該技術的簡要概述。

目前,元宇宙熱潮下,AI 數字人也開始涉及眾多領域,包含文娛、服務、教育、營銷等。市面上出現的 AI 數字人包括功能型 AI 數字人,如虛擬助手、虛擬導遊、虛擬客服等;陪伴型 AI 數字人,如虛擬伴侶、虛擬家屬等;社會型 AI 數字人,如虛擬主播、虛擬偶像、虛擬教師、虛擬醫生、虛擬導購等。

開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了

浦發銀行的首位銀行業數字員工「小浦」

開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了

虎牙 AI 數字人晚玉

開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了

搜狐新聞客戶端聯合搜狗推出的首個明星「AI 數字人」主播。

為了實現虛擬數字人的多域化滲透,讓更多 AI 數字人的場景落地,

FACEGOOD 決定將語音驅動口型的演算法技術正式開源,這是 AI 虛擬數字人的核心演算法,技術開源後將大程度降低 AI 數字人的開發門檻

專案地址:https://github。com/FACEGOOD/Audio2Face

專案背景

2019 年,第十屆中國國際新媒體短片節組委會和 FACEGOOD 聯合釋出陸川導演 AI 數字人。

開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了

陸川導演 AI 數字人形象

觀眾可以和 AI 數字陸川面對面互動交流,為觀眾帶來打破虛擬空間和現實空間次元壁的實時實感交流互動體驗。為了能達到實時互動的效果,FACEGOOD 開發了一套數字人實時語音互動系統,實現了語音到表情動畫的實時轉換。

如今,FACEGOOD 選擇將全套語音驅動表情的技術程式碼開源,免費提供給廣大數字人開發者使用。

技術解讀

該技術可以將語音實時轉換成表情 blendshape 動畫。這樣做的原因是在現行的產業中,用 BS 去驅動數字形象的動畫表情仍是主流,方便動畫藝術家對最終動畫產出最藝術調整,傳輸的資料量小,方便動畫在不同的數字形象之間進行傳遞等等。

基於這些實際生產中的需求,FACEGOOD 對輸入和輸出資料做了相應的調整,聲音資料對應的標籤不再是模型動畫的點雲資料而是模型動畫的 blendshape 權重。最終的使用流程如下圖 1 所示:

開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了

在上面的流程中,

FACEGOOD 主要完成 Audio2Face 部分,ASR、TTS 由思必馳智慧機器人完成

。如果你想用自己的聲音,或第三方的,ASR、TTS 可以自行進行替換。

當然,

FACEGOOD Audio2face 部分也可根據自己的喜好進行重新訓練,比如你想用自己的聲音或其它型別的聲音,或者不同於 FACEGOOD 使用的模型繫結作為驅動資料,都可以根據下面提到的流程完成自己專屬的動畫驅動演算法模型訓練

那麼 Audio2Face 這一步的框架是什麼樣呢?又如何製作自己的訓練資料呢?具體如下圖 2 所示:

開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了

常規的神經網路模型訓練大致可以分為三個階段:資料採集製作、資料預處理和資料模型訓練。

第一階段,資料採集製作。這裡主要包含兩種資料,分別是聲音資料和聲音對應的動畫資料。聲音資料主要是錄製中文字母表的發音,以及一些特殊的爆破音,包含儘可能多中發音的文字。而動畫資料就是,在 maya 中匯入錄製的聲音資料後,根據自己的繫結做出符合模型面部特徵的對應發音的動畫;

第二階段,主要是透過 LPC 對聲音資料做處理,將聲音資料分割成與動畫對應的幀資料,及 maya 動畫幀資料的匯出。

第三階段就是將處理之後的資料作為神經網路的輸入,然後進行訓練直到 loss 函式收斂即可。

最後來看兩段效果展示影片:

window。DATA。videoArr。push({“title”:“開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了”,“vid”:“w3319r1sqxt”,“img”:“http://puui。qpic。cn/vpic/0/w3319r1sqxt。png/0”,“desc”:“開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了”})

window。DATA。videoArr。push({“title”:“開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了”,“vid”:“f3319jikm59”,“img”:“http://puui。qpic。cn/vpic/0/f3319jikm59。png/0”,“desc”:“開發一個自己的數字人,FACEGOOD把語音驅動表情技術開源了”})