選單

那段記憶中的聲音:單式評書再現江湖背後的AI技術

“聽眾朋友們,你們好。從今兒個,由我為大家播講懸疑小說,《江湖消亡史:北平暗夜》。這個故事發生在民國十幾年的北京城裡……”情感充沛的評書腔調,蒼勁沙啞的嗓音,單田芳大師的“聲音”再次響起,熱愛評書的朋友一聽恍若隔世,已故的單老評書怎麼突然回來了?

三年前,無數人感慨世上再無“下回分解”,網友們的呼喚被聽見了,為致敬單老,也為給遍佈大江南北的書迷朋友們一個驚喜,喜馬拉雅運用AI技術讓“書接上回”重現江湖。

那段記憶中的聲音:單式評書再現江湖背後的AI技術

耳熟能詳單老的“下回分解”故事重新迴歸,這段記憶中的聲音背後,是來自於喜馬拉雅的語音合成(TTS: Text-to-speech)技術,即將文字轉化為聲音,喜馬拉雅的技術團隊還將單田芳先生的AI合成音應用於六部風格各異的書籍,用單式評書腔調,全新演繹聽眾耳熟能詳的經典之作。

語音AI讓單老聲音重煥新生

不熟悉評書的朋友們可能不知道單老的魅力。在北方的計程車上,遇到司機在播放單老的評書機率還是蠻高的,而在喜馬拉雅的評書類目中,單老的專輯評書節目長期在熱播榜前列。例如,《亂世梟雄》在喜馬拉雅的播放量近24億,《白眉大俠》播放量近20億。在民間也有個說法:“凡有井水處,皆聽單田芳。”喜愛他的書迷遍佈大江南北,故事中的魅力經過單老情感充沛的演繹極富有味道。

那段記憶中的聲音:單式評書再現江湖背後的AI技術

開啟喜馬拉雅,在《單田芳聲音 AI 重現系列》專輯中,既有直擊淚點、奇人異事道盡人生悲歡的武俠小說——趙晨光的《江湖消亡史:北平暗夜》,也有傳達時代脈動的紀實文學——陳廷一的《毛氏三兄弟:三兄弟與共和國奠基》,還有時下流行、故事情節曲折奇特的推理小說——紫金陳的《無證之罪》,更有延續單老生前未完成的評書經典——宮白羽的《十二金錢鏢》……

這些經典之作讓評書愛好者像過年一般。大家想念單式評書中的故事與人生,人物的百轉千回與俠義灑脫。單老的聲音與跌宕起伏的故事加起來就等於完美,讓人立馬沉浸在故事的世界中。很多書評愛好者都留言表示:怎麼沒有早點用AI技術啊,讓人痴痴等了好幾年。幸運的是,有人在為傳統藝術默默出力,完美復現單老聲音的背後,是來自於喜馬拉雅智慧語音實驗室團隊的AI技術。

據喜馬拉雅智慧語音實驗室盧恆博士的介紹,喜馬拉雅智慧語音實驗室運用TTS 技術,融入團隊自主設計的韻律提取模組以及專門的口音模組,才得以實現原汁原味的單老獨特聲線。

TTS技術早已在喜馬拉雅電子書、新聞等領域實現了廣泛的應用,能夠高效地將新聞、書籍和文章中的大量文字資訊轉為音訊,大幅提升了音訊的生產效率。但是主流的TTS 框架模型是對音訊內容直接進行提取和合成,最終成型的內容效果整體上來說人的那部分情感和情緒都顯得很寡淡。而在評書這個場景中,韻律的起伏非常大,正是因為韻律的變化才使得評書引人入勝,平淡的情緒和腔調帶來的後果就非常致命了,而這也是TTS技術中的難點。

喜馬拉雅智慧語音實驗室自主設計的韻律提取模組,無論單田芳先生評書中的韻律多麼豐富和多變,都能提取並完全復刻出來,這才讓單老的AI合成音彷彿本尊再現。

另外,評書中有很多特殊口音,比如口語化的評書中,“這個”中的“這”字,普通話發音“zhè”,但在評書中通常讀為“zhèi”,跟普通話的發音有很大的區別。為此,喜馬拉雅團隊專門做了特殊重音和停頓的標註,才使單老AI合成音能夠還原出老味道。

除了高度還原單老的聲音外,在新的專輯中,也加入了高階音效設計師的配樂與音效,讓聽眾透過耳朵就能獲得身臨其境的沉浸式體驗,評書中的世界立馬變得立體和生動起來。

透過這些彎彎折折,單式評書才得以重見天日。

天生相互吸引:內容與AI語音技術的邂逅

我們聽到的原汁原味的單老“聲音”,其完美復現並非偶然,而這也只是喜馬拉雅TTS技術的冰山一角。喜馬拉雅已在智慧語音技術上深耕多年,尤其是在TTS領域方面潛心鑽研多年。

目前TTS在業界的發展十分迅速,國內佈局TTS賽道的有一線大廠,比如阿里擁有的語音合成技術KAN-TTS,騰訊雲在語音合成方面也有技術研發。國外像DeepMind建立的語音合成器WaveNet,讓語音合成的音質有了大幅的提升。2016年,谷歌DeepMind推出了用於生成原始音訊波形的深層神經網路模型—“WaveNet”,並在一年多的時間內將原始模型的效率提高了1000倍,而在一組美式英語的人類聽眾測試中,WaveNet的得分超過了真實人類語音。

喜馬拉雅語音技術團隊也已經研發出自己的聲碼器“PhaseGAN”,這種基於生成對抗網路的聲碼器甚至有著比WaveNet 更高的生產效率。

那段記憶中的聲音:單式評書再現江湖背後的AI技術

喜馬拉雅TTS技術的核心,就在於如何讓機器的聲音聽上去韻律自然、情感充沛。說白了,就是如何在機器聲音中注入人性。拿有聲小說這個場景來說,用TTS音色演繹有聲小說需要學習小說中的抑揚頓挫、情感表達、上下文關係,區分旁白和對白等,將作品像真人一般呈現出來很困難。

而喜馬拉雅的TTS模型系統有著獨特的基因優勢:

1。內容資料豐富,區別於一線廠商的資料來源,喜馬拉雅在音訊賽道多年耕耘,已積累海量的內容,包含大量的有聲書內容與眾多的主播,基於這些龐大的語音素材庫,喜馬拉雅有強勁的模型迭代語料和更大的發揮空間。

2。資料是模型迭代的燃料基礎,在此之上,喜馬拉雅也有厚重的研發實力。在語音合成、語音識別、智慧音效、語音編解碼、語音訊號處理和虛擬主播等技術上,喜馬拉雅都進行了深度研發,自研的TTS前端文字處理分析模組,可高精度、全自動地對文字進行多音字識別、韻律預測和風格分類,可以演繹不同情緒文字,還能自動區分旁白、對白,並支援英文,豐富了TTS能表達的情感和韻律。

3。專利效能,現下喜馬拉雅已申請了三項TTS語音合成相關專利,一是在沒有任何英文原始資料的TTS聲音就能夠實現說英文的技術框架,讓不會說英文的人也能流利地講英文。另外,喜馬拉雅還採用並行解碼器,生成語音合成序列,改進了語音合成後端模型的結構和效率。

我們可以發現TTS技術的獨特優勢可以豐富內容的生產迭代,不僅將提高內容生產效率,也讓更多不同內容的生產成為可能。在喜馬拉雅當下主要的PGC、UGC、PUGC三大內容生產模式之外,AI語音技術的更新迭代讓第四種新內容生產模式——AIGC成為可能,並展現出更大的想象空間。

喜馬拉雅的內容生態經過多年的積累、更新,內容精良並且IP豐富。豐富的IP與技術的結合將可能碰撞出更加多元的火花,讓聽眾聽到以往所難以甚至不可能聽到的內容。把腦洞開得大一些,在AI語音的賦能下,未來我們是否可能聽到各種內容IP和不同聲音IP的組合?比如,孫儷“聲音”演播的《甄嬛傳》,孫紅雷“聲音”演播的《掃黑風暴》,甚至,張藝興版的評書,易烊千璽版的童話故事等內容。這些逼真自然的聲音和不同內容相結合,在各類題材和頻道中出現,將會給聽眾帶來很多驚喜。只有你想不到,沒有AI做不到。

技術與內容的雙向賦能如同兩個齧合完美的齒輪一般,驅動著喜馬拉雅內容和產品的更新迭代。從資料上來看,使用者用腳投票,喜馬拉雅的月活跑在了行業前列。據喜馬拉雅招股書內容顯示,截至上半年,移動端總收聽時長和線上音訊總收入來看,喜馬拉雅是中國最大線上音訊平臺,平均MAU達2。62億,其中包括1。1億移動端使用者和1。51億的物聯網及其他開放平臺的使用者。移動端使用者共花費8478億分鐘收聽喜馬拉雅音訊內容,佔中國線上音訊總收聽時長的70。9%。

在雙飛輪驅動的模式下,喜馬拉雅內容和技術都在向前向深飛馳,給我們使用者帶來了更加豐富的內容與體驗。剖析音訊行業這個並不為大眾熟知的賽道,可以透視到是什麼決定了機器如何說話,決定了使用者耳朵的體驗與舒適度,也可以看到頭部的企業帶來了哪些經驗,如何撬開智慧語音的富礦。

“聲”寫未來

給大家一個數據感受下音訊市場的增長勢態。據悉,2020年中國線上音訊使用者數量已經有6。4億人,其中超六成使用者表示曾經購買過線上音訊服務,預計2022年將達到6。9億人。沒想到吧,大家的付費意願竟然這麼強勢。平時勤儉節約的大家,在豐富精神世界方面,卻捨得願意為大腦和心靈投資。

在音訊市場的快速增長下,圍繞“耳朵經濟”的競爭日趨激烈,除喜馬拉雅、荔枝、蜻蜓FM等老牌平臺之外,騰訊、位元組跳動等網際網路巨頭以及中央廣播電視總檯這樣的“國家隊”也紛紛進入這一賽道。各大平臺內容型別的豐裕程度與是否具有差異化的優質內容是吸引使用者以及撬動使用者付費的關鍵。

那段記憶中的聲音:單式評書再現江湖背後的AI技術

可以預見的是,在語音技術加成下,TTS技術製作的高效高質音訊內容會進一步賦能優質內容的生產,喜馬拉雅的內容生態“PGC、UGC、PUGC”也將因為新成員AIGC的加入,在內容創造方面,帶給使用者更多的聽覺盛宴。

喜馬拉雅的AI技術與內容互相磁吸,螺旋纏繞不斷向前向深發展, AI技術為喜馬拉雅的內容生態加碼,而內容反哺技術不斷精進。技術與內容的全面融合也撬開了未來的智慧語音合成市場富礦:

1。對傳統文化的傳承,豐富和傳承評書這類非物質文化遺產,影響越來越多的傳統文化愛好者和青年演員去參與其中,創造更豐富的文化遺產。

2。對平臺的創作者來說,提升效率和內容的質量,讓創作者不再陷入音訊製作的重複性工作中,在多種內容的製作方面TTS都可以賦能創作者的轉型升級。

3。AI技術及大資料分析能力讓內容創作、分發和運營更加精準化,隨著音訊內容逐漸規模化,以及技術的迭代更新,AI對於內容的全生命流程參與程度也越來越高,從而讓音訊內容呈現更豐富更智慧化的趨勢。

移動網際網路的快速發展下,有聲讀物成為我們隨身攜帶的“避難所”。在這些聲音裡面,我們療愈自己,經歷他人的跌宕生活,感受故事中的喜怒哀樂和人生百態。無論是內容的量與質,還是技術的深度研發,喜馬拉雅牽引著行業不斷進步,激發更多的廠商去深耕音訊行業,迭代創新能力。而這也意味著,我們這些喜愛有聲讀物的使用者會擁有更豐富的眼界與精神世界。

聲音不僅僅只是一個簡單的溝通工具,裡面包含了豐富的知識智慧、故事情感,它讓流淌的時間更有意義,讓我們的精神生活更加豐盛。而技術正不斷豐富著聲音的世界,為我們的耳朵帶給我們越來越多元、豐富的體驗。