夏乙 編譯整理
只需要聽(tīng)你說(shuō)幾句話,AI就能“克隆”出你的聲音。
這是百度Deep Voice項(xiàng)目最新get的能力。
Deep Voice推出于一年多以前,是一個(gè)能實(shí)時(shí)合成語(yǔ)音的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。當(dāng)時(shí)的第一代產(chǎn)品,一個(gè)系統(tǒng)只能學(xué)習(xí)一個(gè)人的聲音,而且需要用幾小時(shí)音頻進(jìn)行訓(xùn)練。
百度一直在優(yōu)化Deep Voice,隨后的第二、三代模型就將所需的訓(xùn)練數(shù)據(jù)降到了半小時(shí),一個(gè)系統(tǒng)還能模仿數(shù)千人的聲音。
這次的“語(yǔ)音克隆”研究,是這一系統(tǒng)的最新進(jìn)步。
效果究竟如何呢?需要親耳聽(tīng)一聽(tīng):
百度AI一分鐘就能模仿你的聲音來(lái)自量子位00:0000:09
百度放出了用最新技術(shù)合成語(yǔ)音的幾組例子,上面是量子位轉(zhuǎn)錄的其中一個(gè),前一句是真人,后一句是AI克隆出來(lái)的。
更多例子在這里:https://audiodemos.github.io
這些例子中,語(yǔ)音克隆系統(tǒng)最多用了10段說(shuō)話人語(yǔ)音樣本,最少只有1個(gè),每段樣本只有3秒。量子位聽(tīng)了頁(yè)面上的這些例子,通過(guò)10段樣本合成出來(lái)的語(yǔ)音,就很自然、和原說(shuō)話人非常相似了。1段、5段樣本訓(xùn)練出來(lái)的語(yǔ)音,無(wú)論用哪種模型,依然明顯不像人類。
在最新公布的論文Neural Voice Cloning with a Few Samples中,百度探討了解決語(yǔ)音克隆問(wèn)題的兩種基本方法:說(shuō)話人適應(yīng)(speaker adaptation)和說(shuō)話人編碼(speaker encoding)。這兩種方法的主要過(guò)程如下圖所示:
兩種方法都適用于帶有說(shuō)話人嵌入的多說(shuō)話人語(yǔ)音生成模型,不會(huì)降低其質(zhì)量。
說(shuō)話人適應(yīng)基于反向傳播,用少量樣本對(duì)多說(shuō)話人生成模型進(jìn)行微調(diào)。這種適應(yīng)可以應(yīng)用于整個(gè)模型,也可以只用到低維的說(shuō)話人嵌入(speaker embedding)上。如果只用于說(shuō)話人嵌入,會(huì)拉長(zhǎng)克隆所需的時(shí)間、降低音頻質(zhì)量,但可以用更少的參數(shù)來(lái)表示每個(gè)說(shuō)話人。
說(shuō)話人編碼會(huì)單獨(dú)訓(xùn)練一個(gè)模型,根據(jù)要克隆的音頻,結(jié)合多說(shuō)話人生成模型,來(lái)推理新的說(shuō)話人嵌入。說(shuō)話人編碼模型具有從每個(gè)音頻樣本中檢索身份信息的時(shí)間和頻率域處理模塊、以最優(yōu)的方式將它們結(jié)合在一起的注意力模塊。這種方法的優(yōu)點(diǎn)是克隆所需時(shí)間短,表示每個(gè)說(shuō)話人的參數(shù)少,在計(jì)算資源不足的設(shè)備上也能部署。
這種方法中的說(shuō)話人編碼器除了能計(jì)算出說(shuō)話人嵌入,還能學(xué)會(huì)以有意義的方式將不同的說(shuō)話人投射到嵌入空間,比如不同的性別,或者不同地方的口音會(huì)聚集到一起。因此,這個(gè)模型還能轉(zhuǎn)換說(shuō)話人的口音或者性別。
男聲變女聲、英音變美音的例子,可以在頁(yè)面最下邊找到:https://audiodemos.github.io
聽(tīng)?zhēng)拙湓捑湍苣7履?,百度并不是唯一一家,加拿大AI創(chuàng)業(yè)公司Lyrebird去年也發(fā)布了類似的產(chǎn)品,能通過(guò)1分鐘音頻模仿說(shuō)話人。這款產(chǎn)品模仿川普、奧巴馬、希拉里的音頻,可以說(shuō)是廣為流傳。
最后,想深入了解百度這次的語(yǔ)音克隆進(jìn)展,還是要看論文:https://arxiv.org/pdf/1802.06006.pdf
百度研究院博客原文:http://research.baidu.com/neural-voice-cloning-samples/
— 完 —
誠(chéng)摯招聘
聯(lián)系客服