選單

模型引數過億跑不動?看MIT小哥,少量資料完成高質量文字轉語音!

模型引數過億跑不動?看MIT小哥,少量資料完成高質量文字轉語音!

新智元報道

編輯:白峰

最近 reddit 上一個文字轉語音的 app 火了,它是一家叫做 fifteen。ai 的公司推出的,與傳統的深度神經網路文字轉語音模型不同,它不需要大量的原始語音資料。

模型引數過億跑不動?看MIT小哥,少量資料完成高質量文字轉語音!

少量訓練資料即可生成高保真音訊

這個文字語音轉換工具,可用於生成各種文字的 44。1 kHz 語音。語音是

使用多種音訊合成演算法和經過定製的深度神經網路實時生成的

,這些神經網路是在很少的可用資料上進行訓練的(每個角色 30 到 120 分鐘之間的純淨音訊)。該專案表明,克隆聲音所需的音訊數量顯著減少的同時還能保持角色的情感。

模型引數過億跑不動?看MIT小哥,少量資料完成高質量文字轉語音!

該工具生成的音訊檔案的取樣率為 44100 Hz

,而大多數基於深度學習的文字轉語音實現,所使用的取樣率為

16,000 Hz

。所以用它產生的音訊,聲譜會更詳細(更高質量的音訊),同時缺陷也更明顯。你可以使用其他的音訊編輯工具(例如 Audacity)將生成的音訊降取樣為較低的取樣率,讓音訊顯得更像人類,儘管這樣做會使音訊聽起來相對模糊。

如何利用這個工具製作自己的音訊

將來我們會對這個工具進行改進,改進之前有個折衷的方法,你可以多生成幾次,由於神經網路的不確定性,每次生成的音訊都會有些差異,你可以選擇自己最滿意的。

當然

在這麼小的語料上訓練的模型也是有缺陷的,有些單詞可能發音不準確

,其實這也很好理解,即使是人,在遇到生詞的時候也不一定能準確發音,而傳統的

深度模型通常有 40 個小時或者更多的語料

,所以錯誤率會低一些。但是這款工具對那些缺乏足夠語料的人來說,還是很實用的。

另外作者提到一些 tricks,可以幫忙提高模型的泛化能力。像

故意新增一些拼寫錯誤,標點符號,又或是故意扭曲發音,以提高模型的適用性

“不要指望第一次嘗試就會得到完美的音訊。要生成令你滿意的發音和語調,可能需要不斷去嘗試。”

模型引數過億跑不動?看MIT小哥,少量資料完成高質量文字轉語音!

我們可以利用這個工具的網頁版,生成自己的音訊,隨機選擇一段或者自己輸入一段文字,稍等一會點選播放按鈕就可以播放了,趕快去試一下吧!

參考連結:

https://fifteen。ai