魚(yú)羊發(fā)自凹非寺

背后大模型，是阿里的通義千問(wèn)。至于為什么說(shuō)是組會(huì)神器嘛——

注意看，這是我的B站導(dǎo)師李沐老師，他正在帶同學(xué)們精讀一篇大模型論文。

不巧就在這時(shí)，老板催我抓緊搬磚。我只好默默摘下耳機(jī)，點(diǎn)開(kāi)名為“通義聽(tīng)悟”的插件，然后切換頁(yè)面。

你猜怎么著？雖然我人不在“組會(huì)”現(xiàn)場(chǎng)，但聽(tīng)悟已經(jīng)幫我完整記錄下了組會(huì)內(nèi)容。

甚至還幫我一鍵總結(jié)出了關(guān)鍵詞、全文摘要和學(xué)習(xí)要點(diǎn)。

簡(jiǎn)單來(lái)說(shuō)，這個(gè)剛剛接入大模型能力的“通義聽(tīng)悟”，是一個(gè)大模型版的聚焦音視頻內(nèi)容的工作學(xué)習(xí)AI助手。

跟以往的錄音轉(zhuǎn)寫(xiě)工具不同，它不只是能把錄音、視頻轉(zhuǎn)成文字這么簡(jiǎn)單。能一鍵總結(jié)全文不說(shuō)，總結(jié)不同發(fā)言人觀點(diǎn)也能做到：

甚至還能當(dāng)實(shí)時(shí)字幕翻譯來(lái)用：

看上去，不僅開(kāi)組會(huì)好使，對(duì)于經(jīng)常要處理一大堆錄音、熬夜跟各種國(guó)外發(fā)布會(huì)的量子位來(lái)說(shuō)，也實(shí)屬日常工作新神器。

我們趕緊第一時(shí)間深入測(cè)試了一波。

通義聽(tīng)悟上手實(shí)測(cè)

音頻內(nèi)容的整理和分析，最基礎(chǔ)也是最重要的，就是轉(zhuǎn)寫(xiě)的準(zhǔn)確性。

Round 1，我們先上傳一個(gè)時(shí)長(zhǎng)在10分鐘左右的中文視頻，看看聽(tīng)悟與同類(lèi)工具相比，在準(zhǔn)確性方面表現(xiàn)如何。

基本上，AI處理這種中等長(zhǎng)度音視頻的速度很快，大概不到2分鐘就能轉(zhuǎn)寫(xiě)完成。

先來(lái)看看聽(tīng)悟的表現(xiàn)：

在這個(gè)200字左右的段落中，聽(tīng)悟只出現(xiàn)了兩處錯(cuò)誤：強(qiáng) → 墻，都好處 → 恰到好處。像原子核、電荷、斥力這些物理名詞，聽(tīng)悟都能弄明白。

我們用同一段視頻在飛書(shū)妙記上也進(jìn)行了測(cè)試?；締?wèn)題也不大，但相比聽(tīng)悟，飛書(shū)多了兩處錯(cuò)誤，把其中一處“原子”寫(xiě)成了“園子”，把“斥力”聽(tīng)成了“勢(shì)力”。

有意思的是，聽(tīng)悟犯的錯(cuò)，飛書(shū)也一比一復(fù)刻了?？磥?lái)這口鍋還得量子位某說(shuō)話(huà)吞字的up主來(lái)背（手動(dòng)狗頭）。

訊飛聽(tīng)見(jiàn)，倒是分辨出了前兩位選手沒(méi)有識(shí)別出來(lái)的“恰到好處”。但訊飛聽(tīng)見(jiàn)基本上把“墻”全部都轉(zhuǎn)寫(xiě)成了“強(qiáng)”，還出現(xiàn)了“強(qiáng)的糖?！边@種神奇的搭配。另外，三位選手中，只有訊飛聽(tīng)見(jiàn)把“電磁力”聽(tīng)成了“電子力”。

總體來(lái)說(shuō)，中文的識(shí)別對(duì)這些AI工具來(lái)說(shuō)難度不大。那么在英文材料面前，它們又會(huì)表現(xiàn)如何？

我們上傳了一段馬斯克的最新訪(fǎng)談，內(nèi)容是他與OpenAI過(guò)去的恩怨糾葛。

還是先來(lái)看聽(tīng)悟給出的結(jié)果。在馬斯克的這一段回答中，聽(tīng)悟沒(méi)有分辨出拉里·佩奇的名字，除此之外基本都能識(shí)別正確。

值得一提的是，聽(tīng)悟能夠直接將英文轉(zhuǎn)寫(xiě)結(jié)果翻譯成中文，并將雙語(yǔ)對(duì)照顯示，翻譯質(zhì)量也相當(dāng)不錯(cuò)。

飛書(shū)妙記則成功聽(tīng)出了拉里·佩奇的名字，不過(guò)和聽(tīng)悟一樣，由于馬斯克整體語(yǔ)速較快并且有一些口語(yǔ)化的表達(dá)，存在一些小錯(cuò)誤，比如把“stay at his house”寫(xiě)成了“say this house”。

訊飛聽(tīng)見(jiàn)這邊，人名、連讀細(xì)節(jié)處理得都不錯(cuò)，不過(guò)同樣存在被馬斯克的口語(yǔ)化表達(dá)誤導(dǎo)的情況，比如把“l(fā)ong into the evening”當(dāng)成了“l(fā)onging to the evening”。

如此看來(lái)，在基礎(chǔ)能力語(yǔ)音識(shí)別方面，AI工具們都已經(jīng)達(dá)到了很高的準(zhǔn)確率，在極高的效率面前，一些小問(wèn)題已經(jīng)瑕不掩瑜。

那么，我們將難度再升一級(jí)，Round 2，來(lái)測(cè)試測(cè)試它們對(duì)1小時(shí)左右長(zhǎng)視頻的總結(jié)能力。

測(cè)試視頻是一段40分鐘的圓桌討論，主題是中國(guó)AIGC新機(jī)遇。參與圓桌討論的共有5人。

聽(tīng)悟這邊，從轉(zhuǎn)寫(xiě)完成到AI提取關(guān)鍵詞、給出全文摘要，一共花了不到5分鐘的時(shí)間。

結(jié)果是醬嬸的：

不僅給出了關(guān)鍵詞，圓桌討論的內(nèi)容也總結(jié)得很到位，并且還給視頻劃分了關(guān)鍵點(diǎn)。

對(duì)比人類(lèi)編輯摘錄的話(huà)題要點(diǎn)，我嗅到了一絲危機(jī)……

值得一提的是，針對(duì)不同嘉賓的發(fā)言，聽(tīng)悟都能給出對(duì)應(yīng)的發(fā)言總結(jié)。

同樣的題目拋給飛書(shū)妙記。目前，在內(nèi)容總結(jié)方面，飛書(shū)妙記還只能給出關(guān)鍵詞。

會(huì)議紀(jì)要需要手動(dòng)在轉(zhuǎn)寫(xiě)文字上標(biāo)注。

訊飛聽(tīng)見(jiàn)基于星火認(rèn)知大模型，也有能夠分析文件內(nèi)容的產(chǎn)品正在內(nèi)測(cè)，不過(guò)需要填寫(xiě)申請(qǐng)，排隊(duì)等待。（有內(nèi)測(cè)資格的小伙伴歡迎分享體驗(yàn)~）

在基礎(chǔ)的訊飛聽(tīng)見(jiàn)中，目前沒(méi)有類(lèi)似的總結(jié)功能。

看來(lái)這一輪測(cè)試：

不過(guò)要說(shuō)在本次實(shí)測(cè)中，通義聽(tīng)悟最令人感覺(jué)驚喜的，其實(shí)是一個(gè)“小”設(shè)計(jì)：

Chrome插件功能。

無(wú)論是看英文視頻，看直播，還是上課開(kāi)會(huì)，點(diǎn)開(kāi)聽(tīng)悟插件，就能實(shí)現(xiàn)音視頻的實(shí)時(shí)轉(zhuǎn)錄和翻譯。

就像開(kāi)頭所展示的那樣，拿來(lái)當(dāng)實(shí)時(shí)字幕用，延遲低，翻譯快，還有雙語(yǔ)對(duì)照功能，同時(shí)，錄音和轉(zhuǎn)寫(xiě)文字都能一鍵保存下來(lái)，方便后續(xù)使用。

媽媽再也不用擔(dān)心我啃不下來(lái)英文視頻資料了。

另外，我還有個(gè)大膽的想法……

開(kāi)組會(huì)的時(shí)候打開(kāi)聽(tīng)悟，開(kāi)會(huì)兒小差再也不用怕被導(dǎo)師突然抽查了。

目前，聽(tīng)悟已經(jīng)和阿里云盤(pán)打通，存放在云盤(pán)中的音視頻內(nèi)容可以一鍵轉(zhuǎn)寫(xiě)，在線(xiàn)播放云盤(pán)視頻時(shí)還能自動(dòng)顯示字幕。并且在企業(yè)版本中，AI整理后的音視頻文件將來(lái)還可以在內(nèi)部快速分享。

聽(tīng)悟官方還透露，接下來(lái)，聽(tīng)悟還會(huì)持續(xù)上新大模型能力，比如直接抽取視頻內(nèi)的PPT截圖、針對(duì)音視頻內(nèi)容可以直接向AI提問(wèn)……

關(guān)鍵是，公測(cè)福利現(xiàn)在人人可薅，每天登陸即可自動(dòng)獲得2小時(shí)轉(zhuǎn)寫(xiě)時(shí)長(zhǎng)，阿里云官方微博、微信及各大平臺(tái)社區(qū)還會(huì)發(fā)放大量20小時(shí)轉(zhuǎn)寫(xiě)口令碼，并且時(shí)長(zhǎng)均可疊加，一年內(nèi)有效。

勤快點(diǎn)的羊毛大師，攢出100小時(shí)以上的免費(fèi)時(shí)長(zhǎng)不是夢(mèng)（手動(dòng)狗頭）。

背后技術(shù)：大語(yǔ)言模型+語(yǔ)音SOTA

其實(shí)，在公測(cè)之前，通義聽(tīng)悟就已經(jīng)在阿里內(nèi)部精心打磨過(guò)了。

去年年底，也有量子位讀者拿到了聽(tīng)悟內(nèi)測(cè)體驗(yàn)卡，當(dāng)時(shí)版本中，已經(jīng)有離線(xiàn)語(yǔ)音/視頻轉(zhuǎn)寫(xiě)和實(shí)時(shí)轉(zhuǎn)寫(xiě)的功能。

這次公測(cè)，聽(tīng)悟主要是接入了通義千問(wèn)大模型的摘要及對(duì)話(huà)能力。具體而言，是以通義千問(wèn)大模型為基座，融合了研發(fā)團(tuán)隊(duì)在推理、對(duì)齊和對(duì)話(huà)問(wèn)答等方面的研究成果。

首先，如何準(zhǔn)確抽取關(guān)鍵信息，是這類(lèi)神器提升工作效率的關(guān)鍵。這就需要借助大模型的推理能力。

阿里AI團(tuán)隊(duì)在2022年提出了基于大語(yǔ)言模型的知識(shí)探測(cè)與推理利用框架Proton（Probing Turning from Large Language Models）。相關(guān)論文發(fā)表在KDD2022和SIGIR2023等國(guó)際頂會(huì)上。

該框架的核心思路在于，探測(cè)大模型的內(nèi)部知識(shí)，以思維鏈為載體進(jìn)行知識(shí)流動(dòng)和利用。

在通用常識(shí)推理CommonsenseQA2.0、物理常識(shí)推理PIQA、數(shù)值常識(shí)推理Numbersense三大榜單上，Proton曾先后取得第一。

在TabFact（事實(shí)驗(yàn)證）榜單上，Proton憑借知識(shí)分解和可信思維鏈技術(shù)，首次實(shí)現(xiàn)了超越人類(lèi)的效果。

其次，為了確保摘要內(nèi)容和格式符合用戶(hù)預(yù)期，在對(duì)齊方面，聽(tīng)悟還用上了ELHF，即基于人類(lèi)反饋的高效對(duì)齊方法。

該方法僅需少量高質(zhì)量人工反饋樣本，就能實(shí)現(xiàn)對(duì)齊。在模型效果主觀評(píng)測(cè)中，ELHF能使模型勝率提高20%。

在此之外，聽(tīng)悟背后的研發(fā)團(tuán)隊(duì)，還發(fā)布了首個(gè)中文超大規(guī)模文檔對(duì)話(huà)數(shù)據(jù)集Doc2Bot。該團(tuán)隊(duì)提升模型問(wèn)答能力的Re3G方法，已經(jīng)入選ICASSP 2023：該方法通過(guò)Retrieve（檢索）、Rerank（重排序）、Refine（精調(diào)）和Generate（生成）四個(gè)階段，能提升模型對(duì)用戶(hù)問(wèn)題的理解、知識(shí)檢索和回復(fù)生成能力，在Doc2Dial和Multi Doc2Dial兩大文檔對(duì)話(huà)榜單中取得第一。

除了大模型能力，聽(tīng)悟還是阿里語(yǔ)音技術(shù)的集大成者。

其背后的語(yǔ)音識(shí)別模型Paraformer，來(lái)自阿里達(dá)摩院，首次在工業(yè)級(jí)應(yīng)用層面解決了端到端識(shí)別效果與效率兼顧的難題：

不僅在推理效率上較傳統(tǒng)模型提升10倍，剛推出時(shí)還“屠榜”多個(gè)權(quán)威數(shù)據(jù)集，刷新語(yǔ)音識(shí)別準(zhǔn)確率SOTA。在專(zhuān)業(yè)第三方全網(wǎng)公共云中文語(yǔ)音識(shí)別評(píng)測(cè)SpeechIO TIOBE白盒測(cè)試中，目前，Paraformer-large仍是準(zhǔn)確率最高的中文語(yǔ)音識(shí)別模型。

Paraformer是單輪非自回歸模型，由編碼器、預(yù)測(cè)器、采樣器、解碼器和損失函數(shù)這五個(gè)部分組成。

通過(guò)對(duì)預(yù)測(cè)器的創(chuàng)新設(shè)計(jì)，Paraformer實(shí)現(xiàn)了對(duì)目標(biāo)文字個(gè)數(shù)及對(duì)應(yīng)聲學(xué)隱變量的精準(zhǔn)預(yù)測(cè)。

另外，研究人員還引入了機(jī)器翻譯領(lǐng)域中瀏覽語(yǔ)言模型（GLM）的思路，設(shè)計(jì)了基于GLM的采樣器，增強(qiáng)了模型對(duì)上下文語(yǔ)義的建模。

同時(shí)，Paraformer還使用了數(shù)萬(wàn)小時(shí)、覆蓋豐富場(chǎng)景的超大規(guī)模工業(yè)數(shù)據(jù)集進(jìn)行訓(xùn)練，進(jìn)一步提升了識(shí)別準(zhǔn)確率。

而準(zhǔn)確的多人討論發(fā)言人區(qū)分，則得益于達(dá)摩院的CAM++說(shuō)話(huà)人識(shí)別基礎(chǔ)模型。該模型采用基于密集型連接的時(shí)延網(wǎng)絡(luò)D-TDNN，每一層的輸入均由前面所有層的輸出拼接而成，這種層級(jí)特征復(fù)用和時(shí)延網(wǎng)絡(luò)的一維卷積，可以顯著提高網(wǎng)絡(luò)的計(jì)算效率。

在行業(yè)主流的中英文測(cè)試集VoxCeleb和CN-Celeb上，CAM++均刷新了最優(yōu)準(zhǔn)確率。

大模型開(kāi)卷，用戶(hù)受益

據(jù)中國(guó)科學(xué)技術(shù)信息研究所報(bào)告，據(jù)不完全統(tǒng)計(jì)，目前國(guó)內(nèi)已經(jīng)發(fā)布了79個(gè)大模型。

這種大模型開(kāi)卷的趨勢(shì)下，AI應(yīng)用進(jìn)化的速度再次進(jìn)入到一個(gè)沖刺階段。

站在用戶(hù)的角度來(lái)說(shuō)，喜聞樂(lè)見(jiàn)的局面正逐步形成：

大模型的“統(tǒng)籌”之下，各種AI技術(shù)開(kāi)始在應(yīng)用側(cè)百花齊放，使得工具越來(lái)越高效，越來(lái)越智能。

從一個(gè)斜杠就能幫你自動(dòng)寫(xiě)完工作計(jì)劃的智能文檔，到快速幫你總結(jié)要素的音視頻記錄和分析工具，生成式大模型這朵AGI的火花，正在讓越來(lái)越多的人感受到AI的魔力。

與此同時(shí)，對(duì)于科技企業(yè)來(lái)說(shuō)，新的挑戰(zhàn)和新的機(jī)會(huì)，無(wú)疑也已經(jīng)出現(xiàn)。

挑戰(zhàn)是，所有產(chǎn)品都將被大模型的風(fēng)暴席卷，技術(shù)創(chuàng)新已經(jīng)成為了無(wú)可回避的關(guān)鍵問(wèn)題。

機(jī)會(huì)是，對(duì)于新的殺手級(jí)應(yīng)用而言，重寫(xiě)市場(chǎng)格局的時(shí)間點(diǎn)已經(jīng)到來(lái)。而誰(shuí)能拔得頭籌，就要看誰(shuí)的技術(shù)準(zhǔn)備更充分，誰(shuí)的技術(shù)進(jìn)化速度更快了。

無(wú)論如何，技術(shù)開(kāi)卷，終將是用戶(hù)受益。

官網(wǎng)地址：https://tingwu.aliyun.com

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們，第一時(shí)間獲知前沿科技動(dòng)態(tài)

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

通義聽(tīng)悟上手實(shí)測(cè)

大模型開(kāi)卷，用戶(hù)受益

大模型開(kāi)卷，用戶(hù)受益