19+韩国美女vip视频秀,操杨幂视频

只聽(tīng)?zhēng)拙湓?，百度AI就能模仿你的聲音 | 附論文

漫步之心情 >《C人智AI★深度學(xué)習(xí).寫(xiě)作機(jī)器人》

2018.02.22

關(guān)注

夏乙編譯整理

只需要聽(tīng)你說(shuō)幾句話，AI就能“克隆”出你的聲音。

這是百度Deep Voice項(xiàng)目最新get的能力。

Deep Voice推出于一年多以前，是一個(gè)能實(shí)時(shí)合成語(yǔ)音的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。當(dāng)時(shí)的第一代產(chǎn)品，一個(gè)系統(tǒng)只能學(xué)習(xí)一個(gè)人的聲音，而且需要用幾小時(shí)音頻進(jìn)行訓(xùn)練。

百度一直在優(yōu)化Deep Voice，隨后的第二、三代模型就將所需的訓(xùn)練數(shù)據(jù)降到了半小時(shí)，一個(gè)系統(tǒng)還能模仿數(shù)千人的聲音。

這次的“語(yǔ)音克隆”研究，是這一系統(tǒng)的最新進(jìn)步。

效果究竟如何呢？需要親耳聽(tīng)一聽(tīng)：

百度AI一分鐘就能模仿你的聲音來(lái)自量子位00:0000:09

百度放出了用最新技術(shù)合成語(yǔ)音的幾組例子，上面是量子位轉(zhuǎn)錄的其中一個(gè)，前一句是真人，后一句是AI克隆出來(lái)的。

更多例子在這里：https://audiodemos.github.io

這些例子中，語(yǔ)音克隆系統(tǒng)最多用了10段說(shuō)話人語(yǔ)音樣本，最少只有1個(gè)，每段樣本只有3秒。量子位聽(tīng)了頁(yè)面上的這些例子，通過(guò)10段樣本合成出來(lái)的語(yǔ)音，就很自然、和原說(shuō)話人非常相似了。1段、5段樣本訓(xùn)練出來(lái)的語(yǔ)音，無(wú)論用哪種模型，依然明顯不像人類。

在最新公布的論文Neural Voice Cloning with a Few Samples中，百度探討了解決語(yǔ)音克隆問(wèn)題的兩種基本方法：說(shuō)話人適應(yīng)（speaker adaptation）和說(shuō)話人編碼（speaker encoding）。這兩種方法的主要過(guò)程如下圖所示：

兩種方法都適用于帶有說(shuō)話人嵌入的多說(shuō)話人語(yǔ)音生成模型，不會(huì)降低其質(zhì)量。

說(shuō)話人適應(yīng)基于反向傳播，用少量樣本對(duì)多說(shuō)話人生成模型進(jìn)行微調(diào)。這種適應(yīng)可以應(yīng)用于整個(gè)模型，也可以只用到低維的說(shuō)話人嵌入（speaker embedding）上。如果只用于說(shuō)話人嵌入，會(huì)拉長(zhǎng)克隆所需的時(shí)間、降低音頻質(zhì)量，但可以用更少的參數(shù)來(lái)表示每個(gè)說(shuō)話人。

說(shuō)話人編碼會(huì)單獨(dú)訓(xùn)練一個(gè)模型，根據(jù)要克隆的音頻，結(jié)合多說(shuō)話人生成模型，來(lái)推理新的說(shuō)話人嵌入。說(shuō)話人編碼模型具有從每個(gè)音頻樣本中檢索身份信息的時(shí)間和頻率域處理模塊、以最優(yōu)的方式將它們結(jié)合在一起的注意力模塊。這種方法的優(yōu)點(diǎn)是克隆所需時(shí)間短，表示每個(gè)說(shuō)話人的參數(shù)少，在計(jì)算資源不足的設(shè)備上也能部署。

這種方法中的說(shuō)話人編碼器除了能計(jì)算出說(shuō)話人嵌入，還能學(xué)會(huì)以有意義的方式將不同的說(shuō)話人投射到嵌入空間，比如不同的性別，或者不同地方的口音會(huì)聚集到一起。因此，這個(gè)模型還能轉(zhuǎn)換說(shuō)話人的口音或者性別。

男聲變女聲、英音變美音的例子，可以在頁(yè)面最下邊找到：https://audiodemos.github.io

聽(tīng)?zhēng)拙湓捑湍苣７履?，百度并不是唯一一家，加拿大AI創(chuàng)業(yè)公司Lyrebird去年也發(fā)布了類似的產(chǎn)品，能通過(guò)1分鐘音頻模仿說(shuō)話人。這款產(chǎn)品模仿川普、奧巴馬、希拉里的音頻，可以說(shuō)是廣為流傳。

最后，想深入了解百度這次的語(yǔ)音克隆進(jìn)展，還是要看論文：https://arxiv.org/pdf/1802.06006.pdf

百度研究院博客原文：http://research.baidu.com/neural-voice-cloning-samples/

— 完 —

誠(chéng)摯招聘

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類似文章

百度新論文帶來(lái)「聲音克隆」，一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音

AI助力語(yǔ)音克隆，人和自己“對(duì)話”的障礙在哪？

AI語(yǔ)音克隆只需五秒即可克隆一個(gè)人的語(yǔ)音

蘋(píng)果AI技術(shù)新突破：Siri可識(shí)別熱門單詞和多語(yǔ)種說(shuō)話者

剛剛，ChatGPT官宣數(shù)學(xué)能力再升級(jí)，網(wǎng)友：終于精通十以內(nèi)加減法了

免費(fèi)、操作簡(jiǎn)單的AI語(yǔ)音克隆，讓你的聲音永存于世

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看