国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
只聽(tīng)?zhēng)拙湓?,百度AI就能模仿你的聲音 | 附論文

夏乙 編譯整理

只需要聽(tīng)你說(shuō)幾句話,AI就能“克隆”出你的聲音。

這是百度Deep Voice項(xiàng)目最新get的能力。

Deep Voice推出于一年多以前,是一個(gè)能實(shí)時(shí)合成語(yǔ)音的神經(jīng)網(wǎng)絡(luò)系統(tǒng)。當(dāng)時(shí)的第一代產(chǎn)品,一個(gè)系統(tǒng)只能學(xué)習(xí)一個(gè)人的聲音,而且需要用幾小時(shí)音頻進(jìn)行訓(xùn)練。

百度一直在優(yōu)化Deep Voice,隨后的第二、三代模型就將所需的訓(xùn)練數(shù)據(jù)降到了半小時(shí),一個(gè)系統(tǒng)還能模仿數(shù)千人的聲音。

這次的“語(yǔ)音克隆”研究,是這一系統(tǒng)的最新進(jìn)步。

效果究竟如何呢?需要親耳聽(tīng)一聽(tīng):

百度AI一分鐘就能模仿你的聲音來(lái)自量子位00:0000:09

百度放出了用最新技術(shù)合成語(yǔ)音的幾組例子,上面是量子位轉(zhuǎn)錄的其中一個(gè),前一句是真人,后一句是AI克隆出來(lái)的。

更多例子在這里:https://audiodemos.github.io

這些例子中,語(yǔ)音克隆系統(tǒng)最多用了10段說(shuō)話人語(yǔ)音樣本,最少只有1個(gè),每段樣本只有3秒。量子位聽(tīng)了頁(yè)面上的這些例子,通過(guò)10段樣本合成出來(lái)的語(yǔ)音,就很自然、和原說(shuō)話人非常相似了。1段、5段樣本訓(xùn)練出來(lái)的語(yǔ)音,無(wú)論用哪種模型,依然明顯不像人類。

在最新公布的論文Neural Voice Cloning with a Few Samples中,百度探討了解決語(yǔ)音克隆問(wèn)題的兩種基本方法:說(shuō)話人適應(yīng)(speaker adaptation)和說(shuō)話人編碼(speaker encoding)。這兩種方法的主要過(guò)程如下圖所示:

兩種方法都適用于帶有說(shuō)話人嵌入的多說(shuō)話人語(yǔ)音生成模型,不會(huì)降低其質(zhì)量。

說(shuō)話人適應(yīng)基于反向傳播,用少量樣本對(duì)多說(shuō)話人生成模型進(jìn)行微調(diào)。這種適應(yīng)可以應(yīng)用于整個(gè)模型,也可以只用到低維的說(shuō)話人嵌入(speaker embedding)上。如果只用于說(shuō)話人嵌入,會(huì)拉長(zhǎng)克隆所需的時(shí)間、降低音頻質(zhì)量,但可以用更少的參數(shù)來(lái)表示每個(gè)說(shuō)話人。

說(shuō)話人編碼會(huì)單獨(dú)訓(xùn)練一個(gè)模型,根據(jù)要克隆的音頻,結(jié)合多說(shuō)話人生成模型,來(lái)推理新的說(shuō)話人嵌入。說(shuō)話人編碼模型具有從每個(gè)音頻樣本中檢索身份信息的時(shí)間和頻率域處理模塊、以最優(yōu)的方式將它們結(jié)合在一起的注意力模塊。這種方法的優(yōu)點(diǎn)是克隆所需時(shí)間短,表示每個(gè)說(shuō)話人的參數(shù)少,在計(jì)算資源不足的設(shè)備上也能部署。

這種方法中的說(shuō)話人編碼器除了能計(jì)算出說(shuō)話人嵌入,還能學(xué)會(huì)以有意義的方式將不同的說(shuō)話人投射到嵌入空間,比如不同的性別,或者不同地方的口音會(huì)聚集到一起。因此,這個(gè)模型還能轉(zhuǎn)換說(shuō)話人的口音或者性別。

男聲變女聲、英音變美音的例子,可以在頁(yè)面最下邊找到:https://audiodemos.github.io

聽(tīng)?zhēng)拙湓捑湍苣7履?,百度并不是唯一一家,加拿大AI創(chuàng)業(yè)公司Lyrebird去年也發(fā)布了類似的產(chǎn)品,能通過(guò)1分鐘音頻模仿說(shuō)話人。這款產(chǎn)品模仿川普、奧巴馬、希拉里的音頻,可以說(shuō)是廣為流傳。

最后,想深入了解百度這次的語(yǔ)音克隆進(jìn)展,還是要看論文:https://arxiv.org/pdf/1802.06006.pdf

百度研究院博客原文:http://research.baidu.com/neural-voice-cloning-samples/

— 完 —

誠(chéng)摯招聘

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
百度新論文帶來(lái)「聲音克隆」,一個(gè)半小時(shí)的訓(xùn)練數(shù)據(jù)就可以復(fù)制你的聲音
AI助力語(yǔ)音克隆,人和自己“對(duì)話”的障礙在哪?
AI語(yǔ)音克隆 只需五秒即可克隆一個(gè)人的語(yǔ)音
蘋(píng)果AI技術(shù)新突破:Siri可識(shí)別熱門單詞和多語(yǔ)種說(shuō)話者
剛剛,ChatGPT官宣數(shù)學(xué)能力再升級(jí),網(wǎng)友:終于精通十以內(nèi)加減法了
免費(fèi)、操作簡(jiǎn)單的AI語(yǔ)音克隆,讓你的聲音永存于世
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服