xxx美女视频,江疏影床戏视频,搜索美女视频

VoiceBox：開啟虛擬世界的真實聲音時代

2023.06.25 寧夏

語音生成是人工智能的一個重要領(lǐng)域，然而傳統(tǒng)的語音合成系統(tǒng)通常需要大量的人工干預(yù)和專業(yè)知識，才能調(diào)整聲音的質(zhì)量和風格，生成一系列自然而富有表現(xiàn)力的語音仍然是一個挑戰(zhàn)。

近日，Meta的AI研究人員在語音生成AI方面取得了突破性的進展，發(fā)布了語音生成AI模型——VoiceBox。VoiceBox是一個能夠產(chǎn)生各種風格音頻的生成系統(tǒng)，它不僅可以從零開始創(chuàng)作音頻片段，還可以修改給定的樣本。同時，VoiceBox還可以合成六種語言的語音，完成進行噪音消除（例如移除汽車喇叭或狗叫聲）、內(nèi)容編輯、風格轉(zhuǎn)換和多樣化樣本生成等工作。

01

VoiceBox憑借什么成為“一枝獨秀”？

多數(shù)傳統(tǒng)的語音生成AI使用自回歸模型，自回歸模型是指將樣本數(shù)據(jù)從復(fù)雜轉(zhuǎn)為有序來進行訓練，以此預(yù)測并生成新樣本的人工智能模型，往往需要使用精心準備的訓練數(shù)據(jù)，對每項任務(wù)作專門的訓練，這就有兩個很大的局限性。

第一，音樂數(shù)據(jù)獲取較難，且在使用前需要進行一定的聲學處理（如去除雜音、噪音等），才能獲取相對純凈的數(shù)據(jù)信息。

第二，由于訓練數(shù)據(jù)有限，輸出的語音模型會過于單調(diào)枯燥，缺少真實人類說話時的韻律節(jié)奏。

傳統(tǒng)語音生成AI基本原理

與用于音頻生成的自回歸模型不同，VoiceBox是基于Flow Matching模型構(gòu)建而成，該模型可以學習文本和語音之間高度不確定的映射聯(lián)系，使得VoiceBox可以在更大規(guī)模的數(shù)據(jù)集上進行訓練。

VoiceBox合成語音基本原理

同時，VoiceBox可以在給定周圍語音和片段的轉(zhuǎn)錄本時，預(yù)測語音片段，它可以在錄音中間生成缺失部分，使得用戶無需重新創(chuàng)建整個輸入。這使得VoiceBox在單詞錯誤率、以英語和多語言為基準的音頻風格相似度性能方面都取得了最先進結(jié)果。

VoiceBox在單詞錯誤率方面優(yōu)于Vall-E和YourTTS兩個模型

VoiceBox音頻風格相似度性能上取得新成果

02

VoiceBox能夠完成什么任務(wù)？

憑借Meta的突破性技術(shù)，VoiceBox得以完成多種任務(wù)。

文本到語音合成：使用短至兩秒的音頻樣本，VoiceBox就可以匹配到樣本的整體音頻風格并將其用于文本到語音的生成。在此基礎(chǔ)上，VoiceBox能夠為人們自定義非玩家角色和虛擬助手所使用的聲音。

語音編輯和降噪：VoiceBox可以重新創(chuàng)建被噪音打斷的部分語音或替換說錯的詞，無需重新錄制整個語音，就像用于音頻編輯的橡皮擦一樣，該功能可以幫助專業(yè)媒體人更快地編輯音頻。

跨語言風格轉(zhuǎn)換：給定一段英語、法語、德語、西班牙語、波蘭語或葡萄牙語中的演講樣本和一段文字，VoiceBox可以使用該國家/地區(qū)對應(yīng)口音下朗讀出來。將來VoiceBox可以被用于幫助人們以自然真實的方式交流——即使他們不會說同一種語言。

多樣化的語音采樣：從多樣化的自然數(shù)據(jù)中學習后，VoiceBox可以生成更真實的語音，同時還支持英語、法語、德語、西班牙語、波蘭語和葡萄牙語六種語言。所以，VoiceBox不僅可用于生成語音數(shù)據(jù)，還可幫助用戶更好地訓練語音助手模型。

VoiceBox可以根據(jù)文本內(nèi)容，以多種聲音產(chǎn)出語音

VoiceBox還可以根據(jù)文本中的內(nèi)容和情感，以及用戶指定的元數(shù)據(jù)（如說話者的母語、性別、年齡等），動態(tài)地調(diào)整聲音的風格和屬性。這意味著VoiceBox可以生成多種不同的聲音，并在同一段文本中實現(xiàn)無縫的聲音切換。

03

VoiceBox能應(yīng)用到什么領(lǐng)域？

VoiceBox是第一個成功執(zhí)行任務(wù)的多功能高效泛化模型，代表著生成式AI研究向前邁出了重要一步。

基于VoiceBox在音頻生成方面的靈活性，它未來的應(yīng)用場景主要為在元宇宙中為虛擬助理或NPC角色提供自然和多樣的語音配音，定制個性化語音等。對于無障礙方面而言，Voicebox 也能對聲帶受損的人群提供一定的協(xié)助作用。

Meta表示，VoiceBox可以根據(jù)角色的外貌、性別、年齡等特征，自動調(diào)整語音的參數(shù)，讓元宇宙中的虛擬助手和NPC角色發(fā)出更加真實自然的聲音，這不僅能增加虛擬世界的真實感和互動性，使用戶能夠更加身臨其境地體驗虛擬環(huán)境。

原文鏈接

Meta發(fā)布Voicebox，讓任何人都能輕松說多門外語

文本自動生成6種語音，Meta推出多任務(wù)語音模型——Voicebox

拓展閱讀

虛擬主播的進階之路——AIGC如何實現(xiàn)賦能？

AI虛擬修復(fù)成果亮相，三星堆文物實現(xiàn)跨坑“拼合”

Meta開源MusicGen模型：用AI讓文字化身為旋律

◆ 關(guān)于時間 ◆

廣州時間網(wǎng)絡(luò)科技股份有限公司于2016年06月03日成立，是國家級高新技術(shù)企業(yè)、廣東省專精特新中小企業(yè)、廣東省創(chuàng)新型中小企業(yè)、廣東省科技型中小企業(yè)、廣東省守合同重信用企業(yè)、納稅A級企業(yè)。主營業(yè)務(wù)是文化數(shù)字化研究與實施，數(shù)字化體驗空間建設(shè)與運營，數(shù)字新技術(shù)應(yīng)用。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

機器人語音生成技術(shù)的發(fā)展是否存在潛在風險？

“AI孫燕姿”爆火后，Meta發(fā)布通用語音生成AI：可合成6種語言，支持多種語音功能

語音領(lǐng)域的GPT時刻：Meta 發(fā)布「突破性」生成式語音系統(tǒng)，一個通用模型解決多項任務(wù)

近期科技資訊分享給你

【企業(yè)服務(wù)、先進制造】行業(yè)資訊周報

只聽幾句話，百度AI就能模仿你的聲音 | 附論文

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看