選單

兩會上的這位虛擬人小姐姐,火了!

兩會上的這位虛擬人小姐姐,火了!

新智元報道

編輯:Q

【新智元導讀】

今年看兩會,又有新花樣。來認識下這位兩會助手小姐姐,她不僅能夠與你進行互動,還能解答關於兩會的一些問題。「愛加」出道!簡直比王冰冰還甜!

今年經濟增長有哪些支撐因素?

2021年中國經濟走勢如何?

除此之外,關於兩會你還有哪些問題?

不妨問問她。

她叫「愛加(i+)」,是個A。I。虛擬人,擔任了本屆兩會的虛擬助手,能夠與你進行互動,解答關於兩會的一些問題。

在與央視網聯合釋出的《2021兩會邀你來閱卷》H5中,愛加的互動效果可謂與真人無異。基於語義理解技術,愛加可以對使用者的提問進行實時的問答,幫助使用者迅速掌握兩會要點。

兩會上的這位虛擬人小姐姐,火了!

這位超逼真、真智慧的「愛加(i+)」利用了科大訊飛的語音合成、人臉建模、唇形預測、圖形處理等多項人工智慧技術,只要對她提出問題,就能為你解答,可以實現與使用者“面對面”的互動交流。

其實,這並不是愛加小姐姐的第一次亮相,早在春節期間,她就擔當起了「雲拜年」的重任,使用者透過輸入姓名、選擇拜年文案及場景的操作,就能透過愛加聲情並茂地向各地親朋好友傳遞祝福。

不僅如此,愛加還可以更換多種服裝和造型,祝福語也支援合肥話、東北話、四川話等多種方言,甚至還可以說外語和唱歌。

除此之外,科大訊飛虛擬人也在人民網正式“上崗”,為大家帶來“A。I。主播說兩會”,及時呈上快訊播報、以及對重大事件的精準解讀。

在愛加之前,科大訊飛就已經發布過以虛擬主播「小晴」為代表的虛擬主播家族:

兩會上的這位虛擬人小姐姐,火了!

科大訊飛早期的「小晴」虛擬人

作為科大訊飛早先發布的虛擬形象,小晴更多的承擔單向資訊輸出的播報工作,而隨著技術的迭代以及場景的多元需求,虛擬人與使用者的雙向互動也越來越受到重視。

和小晴1。0相比,愛加在聲音、動作、造型乃至於微表情的表達上更豐富,使用者透過愛加來拜年,能讓天南海北的朋友倍感親切。

如果說之前的愛加,讓我們看到了虛擬人在影片合成內容上的技術突破,那麼本次科大訊飛的兩會A。I。助手,則讓我們看到未來虛擬人在與人互動中的無限可能。

虛擬人「愛加」,更注重與人互動

雖然愛加已經有了巨大的進步,但多數虛擬人專案還存在如下問題:

影象合成在複雜場景下的效果不理想,語言的表達上也比較單一,適合新聞播報場景但在其他場景的應用上稍顯不足。比如,在情感語音的合成方面也還有很大的差距,從人物的形象合成上來講,大角度的走動和舞蹈狀態下的合成效果也比較難以處理。

但科大訊飛憑藉多年的技術和語音資料的積累,正在逐一解決這些行業難題:

在科大訊飛的A。I。虛擬人已有的多語種、多方言合成能力之外,科大訊飛提出了基於歌唱音準的無監督歌唱標註方法,將發音和音準分離,利用神經網路分層級預測,結合高精度神經網路聲碼器合成高品質歌曲,同時提出姿態自適應的表情合成技術,解決了舞動狀態面部姿態大角度以及多角度快速切換場景下的唇形合成難題,在使得虛擬人在精通各種語言的同時,還能傾情演唱。

為了給虛擬人注入情感,使其在互動表達中更有人情味,科大訊飛還結合了認知心理學理論對虛擬人進行互動情感設計,利用無監督表徵學習方法,分離並獲取語音中的情感表徵。同時,利用海量文字無監督語義模型對各類文字進行情感分類預測,實現人性化的端到端情感合成系統,讓虛擬人“活潑”起來。

此外,基於科大訊飛提出的海量說話人的音影片資料預訓練技術,虛擬人愛加能夠做到基於少量資料就完成快速的建模,滿足多種場景多種風格形象的快速定製。

單從虛擬人來看,科大訊飛並不是第一家。

在過去的幾年中,已經出現了許多虛擬人專案,比如搜狗的AI合成主播:

兩會上的這位虛擬人小姐姐,火了!

還有騰訊與軟銀投資的Oben等:

兩會上的這位虛擬人小姐姐,火了!

而跟早前的虛擬人不同的是,愛加的方案融入了更多智慧化、自動化、決策判斷的AI技術元素。

愛加不僅聲音音色、講話風格、表情唇動、肢體動作都更加精細和準確,表達效果也更加豐富、生動、人性化,使得虛擬人的形象更加生動真實。

而這正是利用了科大訊飛提出的基於音影片聯合約束最佳化的人臉引數提取技術,讓不同角度下的人臉引數都能夠準確提取,保障了不同角度下的口唇合成效果,讓虛擬形象可以展現得更靈動。

除了愛加本身形象更多樣表達更靈動,科大訊飛還創新性的引入自然語義理解技術,對文字內容進行智慧理解和決策,實現背景、音效等更多豐富影片元素的自動化、場景化搭配,自動生成元素豐富、形式多樣的影片,大幅提升了使用者與虛擬人互動過程中的視覺效果和互動體驗,在AI多模態虛擬人方向進一步探索。

如果藉助面部捕捉技術的輔助,未來也許可以生成更加逼真的虛擬人:

兩會上的這位虛擬人小姐姐,火了!

加州大學伯克利分校的學生曾在2018年發表了一篇論文,提出了深度學習影象處理的一種更有趣的應用:透過機器學習採集素材,可以將一個人的動作投射到另一個人的身上,讓不會跳舞的宅男宅女化身舞蹈大神。

兩會上的這位虛擬人小姐姐,火了!

透過各種技術的整合,實現科幻電影和3A遊戲裡面常見的可以互動和對話的虛擬人,或許真的沒有想象得那麼遙遠。

隨著過去幾年深度學習技術的不斷進步、資料的擴增和算力的提升,未來的虛擬人專案可能會更加的驚豔。例如最近超火的湯姆克魯斯的“Deepfake”,就是透過深度學習技術,用一個人的臉演繹另一個人的表情:

兩會上的這位虛擬人小姐姐,火了!

由此看來,愛加只是虛擬人實際落地的一個嘗試,隨著全息投影技術的進步、VR、AR等裝置的普及,未來透過這種人和虛擬人的人機協作,一定可以實現真正把人從重複性的工作中解放出來,極大地解放生產力,提高生活和工作的效率。

兩會虛擬助手只是起點

在音影片內容生產方向,科大訊飛已經有了訊飛配音、訊飛有聲、A。I。虛擬主播系統等落地應用,面向不同使用者群體,透過智慧化音影片技術,輔助日常使用,實現不同場景下,快速生產音影片內容。

兩會上的這位虛擬人小姐姐,火了!

在互動場景方向,科大訊飛運用新升級的A。I。虛擬形象技術,結合語音識別、語義理解、語音合成、虛擬形象驅動等A。I。核心技術,實現使用者與A。I。虛擬人之間的互動交流、業務諮詢、智慧問答、服務導覽,虛擬站務員、虛擬金融理財顧問、虛擬面試官等的推出,使得科大訊飛虛擬人的多模態得到了廣泛應用。

隨著5G時代的到來,虛擬人更是可以深度匹配不同行業的更多場景需求,如A。I。客服、A。I。經理、A。I。店長、A。I。演示員,甚至是A。I。醫生,A。I。老師等多種社會角色。

幾年前,科大訊飛團隊透過“聲音復刻”技術在一檔綜藝裡為遼寧女孩圓夢,助其實現“留住已故爸爸”的心願。透過A。I。語音合成,女孩爸爸的聲音在節目現場重現,併為女兒讀了一封信,給予了她生活的信念與希望,也給予了觀眾無限的感動和震撼。

未來,科大訊飛透過虛擬人技術,或許可以解決各種需求,讓虛擬人不再「格式化」,實現「千人千面」,帶有更多的人格化特徵。

也許這才是科技賦能生活的真正意義,未來值得期待。

掃碼加好友,加入海歸Python程式設計和人工智慧群