爆插极品美女视频,刘诗雯2019乒乓球比赛视频,99国产捆绑美女视频

繼“換臉”刷屏之后，這個(gè)AI技術(shù)讓你“一鍵變聲”

熱冰_01 >《雜談》

2022.05.12

關(guān)注

轉(zhuǎn)自：大數(shù)據(jù)文摘|BigDataDigest

作者：蔣寶尚、魏子敏

原標(biāo)題：“假聲音”也來了，手把手教你造一只柯南的蝴蝶結(jié)變聲器

最近，一只“總統(tǒng)洋蔥新聞”在Youtube和Reddit上引發(fā)了一波討論。

視頻中，特朗普用它一貫懶散的聲音播報(bào)了一組耐人尋味的新聞——“數(shù)據(jù)雨“：

民主黨人把太多數(shù)據(jù)存在運(yùn)上，冷卻后成為液體，最后通過降雨落下來，對地球生態(tài)造成巨大傷害。想要避免這種致命液體，你需要躲在屋里，不要出門。

視頻地址：

https://www.youtube.com/watch?v=jzKlTKsHeus

雖然內(nèi)容荒唐，但整個(gè)視頻中的聲音效果非常真實(shí)，以至于不少網(wǎng)友在捧腹大笑的同時(shí)也開始調(diào)侃，“是不是很快就能接到特朗普給我打的廣告電話了?！?/span>

再加上近期，“假臉”技術(shù)大肆盛行，與之配套的“假聲音”上線后，更能生成無縫銜接的假視頻，讓假戲做足，真假難辨。

靠換臉技術(shù)”出演”《射雕英雄傳》的楊冪

一鍵生成“假聲音”

關(guān)于變音技術(shù)，江湖上確實(shí)流傳了幾種，不過加持了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)，這種技術(shù)不再是簡單的語音濾波器。

聽聽下面的聲音?

是不是后面兩種語音的音調(diào)、停頓以及語氣和第一種幾乎都一模一樣。

跟”一鍵變臉“的deepfake軟件一樣，研究者們也開發(fā)了讓不懂技術(shù)的同學(xué)直接易上手的變聲軟件。

剛剛聽到的這個(gè)聲音就來自這樣一個(gè)網(wǎng)站Modulate.ai。麻省理工科技評論的資深編輯Will Knight用其輕易就合成了不同的聲音。

創(chuàng)建這個(gè)網(wǎng)站的三個(gè)小伙伴，有兩個(gè)來自麻省理工，還有一個(gè)來自加州大學(xué)洛杉磯分校。對于游客，這個(gè)網(wǎng)站給出了幾個(gè)適用的聲音，對于想定制名人聲音的用戶，還得通過官網(wǎng)給出的聯(lián)系方式聯(lián)系他們。

據(jù)網(wǎng)站介紹，合成的聲音是是采用神經(jīng)網(wǎng)絡(luò)訓(xùn)練來訓(xùn)練，具有低延遲性以及實(shí)時(shí)性。

文摘菌試了一把，在網(wǎng)站的提供的接口處錄下聲音，選擇你想要的“性別”或者“名人”，網(wǎng)站會(huì)很快生成你想要的聲音。

網(wǎng)站地址：

https://modulate.ai/

此外，百度在18年的3月份曾經(jīng)宣布，百度開發(fā)的新 AI 算法Deep Voice可以通過3.7秒鐘的錄音樣本數(shù)據(jù)就能完美的克隆出一個(gè)人的聲音。Deep Voice是百度AI研究院一個(gè)由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語音轉(zhuǎn)（TTS ）系統(tǒng)。除了利用少量樣本克隆聲音外，系統(tǒng)還能將女性聲音轉(zhuǎn)變成男性，英式聲音變成美式。

語音轉(zhuǎn)語音的具體過程

聲音的直接轉(zhuǎn)換是比較復(fù)雜的，因?yàn)橐粋€(gè)人的“聲音”不僅是由聲帶定義，聲帶只是聲音的頻率，具體來說，還取決于口音和說話風(fēng)格。另外，音高會(huì)受胸腔的物理特性等的影響。這些影響作用在不同的層面上，發(fā)音決定了單詞和短語是如何在幾秒鐘或幾十秒內(nèi)被識(shí)別出來。

當(dāng)開始合成語音時(shí)，技術(shù)人員主要會(huì)考慮三個(gè)因素。

首先是生物因素，這些因素人們難以自行改變。第二，構(gòu)建聲音認(rèn)同概念，即任何在語言下明顯表現(xiàn)出來的同一性。有了這個(gè)定義，就可以很好的建立語音識(shí)別模型。第三，建立獨(dú)立于上下文處理語音片段的模型，這個(gè)模型的好處是它比神經(jīng)網(wǎng)絡(luò)中所要處理的序列模型要簡單的多，并且可以有效的降低語音處理延遲。

總的來說，所要建立的系統(tǒng)是：把一個(gè)說話人的聲音的頻率分布（frequency profile）換成另一個(gè)聲音的頻率分布，同時(shí)保持他們講話的其余屬性不變。

所以，自然的將系統(tǒng)分為兩個(gè)部分：1、語音識(shí)別 2、語音轉(zhuǎn)換。這兩個(gè)部分最主要的區(qū)別是，是從語音轉(zhuǎn)換到文本，還是從文本轉(zhuǎn)換到語音。如果這兩個(gè)部分獨(dú)立運(yùn)行，那么整個(gè)系丟失“情感模仿”。

語音轉(zhuǎn)文本和文本轉(zhuǎn)語音同屬一個(gè)極端的情況。語音轉(zhuǎn)換必須使用媒介，由于系統(tǒng)只能給出語音，并且嘗試在輸出中再現(xiàn)輸入的語句。

通過限制某時(shí)段通過系統(tǒng)的信息量，系統(tǒng)學(xué)習(xí)識(shí)別功能（identity function），這是系統(tǒng)的瓶頸。在從語音到文本到語音的情況下，瓶頸在于對輸入的語音進(jìn)行文本表示，因此系統(tǒng)必須進(jìn)行一般性學(xué)習(xí)，才能根據(jù)文本生成可靠的語音。

從通過機(jī)器學(xué)習(xí)構(gòu)建這樣一個(gè)系統(tǒng)的角度來看，出現(xiàn)瓶頸自然有其的道理。機(jī)器學(xué)習(xí)，特別是深度學(xué)習(xí)，當(dāng)被訓(xùn)練來完成一項(xiàng)特定的任務(wù)時(shí)，一直表現(xiàn)得非常好。但是瓶頸自動(dòng)編碼器沒有接受過語音轉(zhuǎn)換的訓(xùn)練，他們接受的是自動(dòng)編碼訓(xùn)練。

破解瓶頸的主要方法是調(diào)整信息瓶頸的帶寬。例如文本中間表示，會(huì)丟失太多信息。文本可以使用情感標(biāo)簽或其他符號(hào)進(jìn)行注釋，但這些需要對監(jiān)督數(shù)據(jù)著重進(jìn)行手動(dòng)注釋。

具體的步驟：

首先嘗試在兩種不同的損失函數(shù)上訓(xùn)練說話人標(biāo)識(shí)符（ identifie）：真實(shí)音頻匹配揚(yáng)聲器配置文件和生成音頻，以及真實(shí)音頻匹配揚(yáng)聲器配置文件和真實(shí)音頻的揚(yáng)聲器配置文件。使得說話人的標(biāo)識(shí)符“尋找”說話人身份，否則它只能關(guān)注于檢測生成的音頻。在實(shí)踐中，發(fā)現(xiàn)只有對兩個(gè)損失函數(shù)中的第一個(gè)函數(shù)的訓(xùn)練才能起到同樣的作用：說話人標(biāo)識(shí)符首先學(xué)會(huì)區(qū)分真實(shí)的音頻和生成的音頻，然后隨著生成器開始產(chǎn)生更高質(zhì)量的輸出，自然進(jìn)化到使用說話人配置文件。

在神經(jīng)網(wǎng)絡(luò)的輸入層對說話人標(biāo)識(shí)符的大小設(shè)置了懲罰。懲罰的大小是一個(gè)可調(diào)整的參數(shù)，通過訓(xùn)練效果進(jìn)步明顯與否，可以判斷最優(yōu)參數(shù)。對于真實(shí)和假音頻，我們最好的訓(xùn)練傾向于快速收斂0.55的交叉熵，然后在大多數(shù)訓(xùn)練過程中慢慢爬過0.6。

然后繼續(xù)改進(jìn)系統(tǒng)系結(jié)構(gòu)，通過直接優(yōu)化語音轉(zhuǎn)換目標(biāo)，通過一個(gè)新的說話人標(biāo)識(shí)符，能夠產(chǎn)生與目標(biāo)聲音緊密匹配的合成語音，同時(shí)保留了通常由瓶頸架構(gòu)丟失的表達(dá)性。

AI合成大事件

通過AI技術(shù)合成圖片以及視頻早已不新鮮，要說最著名的合成案例可能就是下面這個(gè)。

這項(xiàng)技術(shù)由華盛頓大學(xué)SUPASORN SUWAJANAKORN等三人共同發(fā)明，他們坦言，之所以選用奧巴馬做研究范例，是因?yàn)樗母咔逡曨l資源獲取非常容易，并且不受版權(quán)限制。

因此，研究小組用神經(jīng)網(wǎng)絡(luò)分析了數(shù)百萬幀的視頻，來確定奧巴馬的面部表情如何變化。開口說話需要整個(gè)面部器官的協(xié)調(diào)，所以研究人員不僅分析了口型變化，還包括他的嘴唇、牙齒和下巴周圍的皺紋，甚至還包括脖子與衣領(lǐng)。

具體的操作過程是：研究人員采集了音頻片段（原始音頻文件），再把口型和新的音頻文件剪輯匹配，再嫁接到新視頻。

國內(nèi)的科技公司也在這一領(lǐng)域各有千秋。拿導(dǎo)航用的語音來說，科大訊飛的董事長劉慶峰在2018世界機(jī)器人大會(huì)上表示，高德地圖導(dǎo)航上面的林志玲、郭德綱的聲音都是合成，其實(shí)都不是本人原音，而是由他們的機(jī)器來完成合成的，壓根就不是本人錄的。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

“柯南領(lǐng)結(jié)”變成現(xiàn)實(shí)，字節(jié)跳動(dòng)SAMI發(fā)布新一代實(shí)時(shí)AI變聲方案

提供類“ChatGPT”功能，將文本自動(dòng)生成歌曲，Voicemod獲得1450萬美元A 輪融資

以下好用的文字轉(zhuǎn)語音軟件不要錯(cuò)過哦

Google 開發(fā)的這個(gè) AI 真的能說人話？！

4 小程序大全—各種音頻類

微課制作教程10-如何改變聲音音調(diào)（變聲）

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看