模型引數過億跑不動？看MIT小哥，少量資料完成高質量文字轉語音！

新智元報道

編輯：白峰

最近 reddit 上一個文字轉語音的 app 火了，它是一家叫做 fifteen。ai 的公司推出的，與傳統的深度神經網路文字轉語音模型不同，它不需要大量的原始語音資料。

少量訓練資料即可生成高保真音訊

這個文字語音轉換工具，可用於生成各種文字的 44。1 kHz 語音。語音是

使用多種音訊合成演算法和經過定製的深度神經網路實時生成的

，這些神經網路是在很少的可用資料上進行訓練的（每個角色 30 到 120 分鐘之間的純淨音訊）。該專案表明，克隆聲音所需的音訊數量顯著減少的同時還能保持角色的情感。

該工具生成的音訊檔案的取樣率為 44100 Hz

，而大多數基於深度學習的文字轉語音實現，所使用的取樣率為

16,000 Hz

。所以用它產生的音訊，聲譜會更詳細（更高質量的音訊），同時缺陷也更明顯。你可以使用其他的音訊編輯工具（例如 Audacity）將生成的音訊降取樣為較低的取樣率，讓音訊顯得更像人類，儘管這樣做會使音訊聽起來相對模糊。

如何利用這個工具製作自己的音訊

將來我們會對這個工具進行改進，改進之前有個折衷的方法，你可以多生成幾次，由於神經網路的不確定性，每次生成的音訊都會有些差異，你可以選擇自己最滿意的。

當然

在這麼小的語料上訓練的模型也是有缺陷的，有些單詞可能發音不準確

，其實這也很好理解，即使是人，在遇到生詞的時候也不一定能準確發音，而傳統的

深度模型通常有 40 個小時或者更多的語料

，所以錯誤率會低一些。但是這款工具對那些缺乏足夠語料的人來說，還是很實用的。

另外作者提到一些 tricks，可以幫忙提高模型的泛化能力。像

故意新增一些拼寫錯誤，標點符號，又或是故意扭曲發音，以提高模型的適用性

。

“不要指望第一次嘗試就會得到完美的音訊。要生成令你滿意的發音和語調，可能需要不斷去嘗試。”

我們可以利用這個工具的網頁版，生成自己的音訊，隨機選擇一段或者自己輸入一段文字，稍等一會點選播放按鈕就可以播放了，趕快去試一下吧！

參考連結：

https：//fifteen。ai

猜你喜歡