韩国美女深夜福利视频vlp,极度诱人的美女视频,韩国美女直接挤奶视频

AI助力語音克隆，人和自己“對話”的障礙在哪？

2020.10.29

如果有一天，你可以將你的聲音通過人工智能技術(shù)“克隆”出來，而且你還能和“你”進行各種對話，你是否愿意嘗試？

這個場景并不遙遠，不久前，“AI First”的谷歌表示，其最新版本的人工智能語音合成系統(tǒng)——Tacotron2合成出來的語音幾乎和真人聲音一模一樣。它擁有兩個深度神經(jīng)網(wǎng)絡(luò)，第一個能夠?qū)⑽谋巨D(zhuǎn)化為頻譜圖，第二個則負責將頻譜圖生成相應(yīng)的音頻。

而麻省理工評論則認為百度的技術(shù)則更進一步，百度在最近發(fā)布的新論文中表示，該技術(shù)只要通過一個半小時的語音數(shù)據(jù)的學(xué)習(xí)，就能“克隆”出原對象的聲音。雖然以前百度的“Deep Voice”也能夠生成語音，但讓生成出來的語音附帶不同的語言特色正是語音生成的一大突破，而且它除了能“克隆”之外，還能對該聲音的性別或口音進行更改，甚至還能賦予該克隆聲音一些簡單的情感。

語音克隆技術(shù)是什么？又能做些什么？

一

語音合成的技術(shù)有三種，但只有AI技術(shù)才能稱為語音克隆

最早的語音合成技術(shù)通過預(yù)先錄制好的字詞、短句來實現(xiàn)的，把各個部分串成一行，以此產(chǎn)生完整的句子。生活中各種服務(wù)熱線的自助語音系統(tǒng)就是用這種方式實現(xiàn)的，所以會經(jīng)常存在卡頓，音色不一樣等問題，語氣也很冰冷。

第二種手段雖然能夠使語音更加自然，但其中也需要大量的人工處理，首先是制作語音庫，確定音色、風(fēng)格、特性、角色等要求后，投入音庫生產(chǎn)線，設(shè)計錄音腳本、訓(xùn)練錄音資源、進行效果優(yōu)化，在輸出的時候還要進行各類語言處理，包括文本規(guī)整、詞的切分，然后是韻律處理，為其劃出音段特征，如音高、音長和音強等等，使合成的語音給人的感覺更加自然些。

但這類合成系統(tǒng)因為進行韻律預(yù)測處理方面的工作量巨大、所以也存在表現(xiàn)能力不足等問題，如合成語音對不同情感的表達會不夠恰當，使得合成語音聽起來缺乏人情味。而語音合成的技術(shù)發(fā)展不僅要讓說話的聲音達到真人水準，也應(yīng)當在情感表達方面有所突破，使語音交互帶有情感，達到更好的交流體驗。

最近爆出的百度Deep Voice技術(shù)，則是通過深度學(xué)習(xí)技術(shù)實現(xiàn)“語音克隆”的，通過真實語音的訓(xùn)練，能在“聽”的過程中學(xué)會每個人說話時字詞、音位和句子的發(fā)音特點，并通過模仿這個人聲音中的情感和語調(diào)，“說”出全新的語句；“一聽一說”之間，整個過程基本不用人工干預(yù)，深度學(xué)習(xí)技術(shù)可以自行完成所有工作。

具體來說，百度的研究人員是通過兩種具體的方法來實現(xiàn)的：說話人適應(yīng)（speaker adaption）和說話人編碼（speaker encoding）。它們可以只用最少的音頻數(shù)據(jù)來完成任務(wù)，并且在深度語音系統(tǒng)中，即使處于一個多揚聲器模型，也不會降低質(zhì)量。

其中“說話人適應(yīng)”是使用多個克隆樣本，基于反向傳播的優(yōu)化方法對多個說話人語音生成模型做精細調(diào)節(jié)。這個方法可以只作用于低維度的說話人嵌入，或者作用于整個模型；在低緯度的嵌入時，每個說話人所需的參數(shù)量比較少，而且需要較長的克隆時間，生成語音的質(zhì)量也會差一些。

其中“說話人編碼”則需要訓(xùn)練一個單獨的模型，用它直接從語音樣本中推斷出一個新的嵌入數(shù)據(jù)，然后再把這個嵌入數(shù)據(jù)用在多個講話人語音生成的模型中。而且這個方法還帶有時域和頻域的處理模塊，可以從音頻樣本分析中提取到有關(guān)說話人的身份信息，然后用注意力模塊把各種信息以最優(yōu)的方式結(jié)合起來。這個方法的好處是克隆耗時少、標明說話人信息所需要的參數(shù)少，使得這種方法在輸入資源有限的場景中也能夠使用。

二

語音克隆的功與過

在人機交互的個性化場景中，研究人員預(yù)期語音克隆可能會有很重要的作用，如可以用來訂制個人AI助手、讀書音頻以及殘疾人語音系統(tǒng)等，且對有語言障礙人來說，這個程序能幫助他們練習(xí)發(fā)聲，使他們更容易與人交流，這種過程就像是在和一個善解人意的朋友在聊天一樣，可能會成為一個重要的社交工具。

而在心理醫(yī)療領(lǐng)域，如果能復(fù)原出逝者的聲音，這對于痛失親人后在心理上造成了創(chuàng)傷的人們來說，也無疑是巨大的安慰。

不過語音克隆也會帶來一些麻煩，它可能會被用來對公眾人物進行惡意攻擊；也可能會使聲紋識別形同虛設(shè)，因為據(jù)《新科學(xué)家》報道，使用人工智能技術(shù)做出聲音識別軟件，在測試中，準確率已經(jīng)超過了95%；也可能破壞錄音作為法律證據(jù)的可信度；還可能會用來假冒他人身份，成為語音詐騙的幫兇。它預(yù)示著未來的聲音可能會像照片一樣，可以很容易地進行偽造。

但克隆出的人類聲音，這其中還是會有些細微差別，經(jīng)不起詳細推敲——取證專家可能會通過分析語音中的數(shù)字簽名，從而證明其為合成語音；而研究人員也開始在研究一種“聲紋”系統(tǒng)，以期其能很容易的分辨出原聲和生成的語音；不過語音克隆還是存在著很多隱患，因為在普通的生活當中，足以造成相當嚴重的誤導(dǎo)性效果。

三

要實現(xiàn)“完美”的語音克隆，最大的一道坎在哪？

智能相對論（微信ID：aixdlun）認為，完美的語音克隆，也應(yīng)該能夠克隆出說話人攜帶的情感，而不僅僅是音色等表象的元素，就像是這個聲音擁有自己的靈魂。而目前語音克隆能夠進行的情感表達，更多的是研究人員修改完成的，而且還需要對各類情感進行標注。

谷歌的Tacotron2系統(tǒng)也還只能進行模式化的情感表達，如根據(jù)輸入文本的標點符號的不同而在語氣上有所區(qū)分；在讀大寫單詞時加重語氣等。

百度和谷歌的語音合成技術(shù)暫時不能達到自行合成情感，這也是語音克隆其技術(shù)本身所限，要實現(xiàn)合成出的每一句話有其恰當?shù)那楦?，這里面有情感識別、情感自動標注、、語氣調(diào)整等大量的數(shù)據(jù)和工程難度，費用和技術(shù)也暫時難以逾越。

而更進一步，想要和機器進行有情感語音的交互就更加困難了，因為這并不是單一技術(shù)所能完成的，它除了能輸出情感之外，還必須要求自然語言處理技術(shù)能夠識別出人類表達中的各種情感，以此作為回應(yīng)的前提，而這已經(jīng)超出了語音克隆的技術(shù)范圍。

在語音交互中，讓機器能夠自然、順暢的說話是人機交互的一大要求，表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是語音合成所追求的。

而隨著AI技術(shù)的發(fā)展，語音交互的音質(zhì)、流暢度、自然度都得到了很大的提高，但在表現(xiàn)力方面依舊是其最大的痛點，不過隨著各大廠商的持續(xù)發(fā)力，未來使機器也能像朗讀者一樣，抑揚頓挫、情感起伏、拿捏到位也不是夢想。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

30分鐘讓人工智能完美克隆你的聲音：始于科技，融于自然

AI騙走173萬！偽造老板聲音要求轉(zhuǎn)賬，這家公司上當了，贓款幾經(jīng)易手，騙子無影無蹤

語音合成新技術(shù)，可復(fù)制任何人的語音！

你是否會被人工智能哭泣的聲音所打動？| Mixlab 技術(shù)前沿

智能配音怎么制作的？這里有你想知道的答案

文字轉(zhuǎn)語音在線生成可以怎么做？試試這些方法

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看