隨著 AI 工具的不斷增多,各家模型的能力也日益提升,現(xiàn)在無論哪款大模型幾乎都能夠處理各種翻譯難題。
在AI浪潮當(dāng)下,越來越多的論文和前沿信息需要快速翻譯和解讀,依賴傳統(tǒng)的翻譯工具依舊面臨“翻譯質(zhì)量不穩(wěn)定、速度慢、費(fèi)用高且難以準(zhǔn)確理解上下文”的問題。
相比之下,AI大模型憑借其強(qiáng)大的學(xué)習(xí)能力和適應(yīng)性,在翻譯質(zhì)量、效率、上下文理解和多語言支持等方面表現(xiàn)出色,提供了更加智能和高效的翻譯體驗(yàn)。
本次我們將從經(jīng)典文本、專業(yè)文獻(xiàn)翻譯和日常生活三大類別出發(fā),對八款A(yù)I大模型的翻譯能力進(jìn)行全面測評,八款大模型分別如下ChatGPT-4o、豆包、Kimi、騰訊元寶、通義千問、文心一言、訊飛星火和智譜清言,重點(diǎn)關(guān)注它們在不同翻譯場景下的表現(xiàn)。
注:本次測評包含了翻譯的各種場景、測評結(jié)果與點(diǎn)評。全文較長,讀者可以參考以下文章結(jié)構(gòu),進(jìn)行文章閱讀。
· 本次測評規(guī)則及打分標(biāo)準(zhǔn)
· 測評10題及詳細(xì)點(diǎn)評
· 八大模型測評前三榜單(可到文末直接查看)
第一部分 翻譯能力測評標(biāo)準(zhǔn)
· (1)題目設(shè)計(jì):測評包含經(jīng)典詩歌到專業(yè)資格考試題目、日常生活等場景。由淺入深全方位涵蓋大部分的實(shí)際應(yīng)用場景。
· (2)評分標(biāo)準(zhǔn):共10題,每題10分(根據(jù)測評的5個(gè)維度進(jìn)行評分),總分100分。
· (3)測評維度:本次測評標(biāo)準(zhǔn)涵蓋了準(zhǔn)確性、流暢性、文化差異處理、速度與效率、用戶體驗(yàn)五大方面。每個(gè)方面都有具體的評分項(xiàng)和權(quán)重設(shè)置,確保測評結(jié)果的客觀性和全面性。
? a. 在評估文本翻譯質(zhì)量時(shí),主要關(guān)注五個(gè)標(biāo)準(zhǔn):
? b. 在評估口語翻譯方面?zhèn)戎兀赫Z音識別準(zhǔn)確率、翻譯準(zhǔn)確性、翻譯流暢度、口語表達(dá)自然度。
· (4)評審團(tuán): 專業(yè)翻譯人員、資深A(yù)I愛好者、媒體內(nèi)容從業(yè)者。
第二部分 翻譯能力10測
我們設(shè)計(jì)了十道評測題目,內(nèi)容涵蓋了經(jīng)典詩歌、專業(yè)資格考試和日常生活等翻譯場景。每一道題目都經(jīng)過精心挑選,代表了特定的翻譯難點(diǎn)和應(yīng)用場景。
第1題:文言文翻譯
文言文是中文體系中最為復(fù)雜的語言形式,這對模型的翻譯能力是一個(gè)巨大的挑戰(zhàn)。不僅需要先將其翻譯為現(xiàn)代漢語,還要在此基礎(chǔ)上進(jìn)行外文翻譯,難度更是進(jìn)一步提升。
測試方法:由此我們從中國經(jīng)典文言文中選擇大家都很熟悉的《出師表》(諸葛亮),這部分主要考察模型對古文理解、翻譯的準(zhǔn)確性和文言韻味的保留。
原始 prompt:
請把這篇【《出師表》】翻譯成英文,保留原來的人名、地名、術(shù)語等內(nèi)容。
具體模型表現(xiàn)選評:
ChatGPT-4o 對《出師表》的翻譯整體表現(xiàn)優(yōu)秀。譯文準(zhǔn)確、流暢,基本符合專業(yè)文本的翻譯要求。雖然在文學(xué)性和文言韻味的傳達(dá)上有所欠缺,但整體上仍能較好地傳達(dá)原文的主要信息和情感。某些細(xì)節(jié)和深層次的文化含義可能在翻譯過程中略有遺失。例如,“今天下三分,益州疲弊,此誠危急存亡之秋也”這句中的復(fù)雜關(guān)系翻譯得比較直白,缺少了一些原文的深意。
騰訊元寶:譯文語言盡量接近文言文的文體形式,主要采用短句和簡單句,使用較多的插入語,使英文文本與文言文語言形式一致。譯文能夠相對準(zhǔn)確地傳達(dá)原文本的信息,幾乎沒有出現(xiàn)錯(cuò)譯現(xiàn)象。
訊飛星火:譯文文本流暢,符合英文表達(dá)習(xí)慣,沒有明顯的語義和語法錯(cuò)誤,能正確譯出“兩漢”,并使用較多語義連接詞語和結(jié)構(gòu),增加譯文的可讀性,符合英文語言表達(dá)規(guī)范。
翻譯專家綜合點(diǎn)評:
文言文翻譯的難點(diǎn)在于對原文邏輯的理解和斷句,在這方面各個(gè)模型都有錯(cuò)誤。例如“今天下三分,益州疲弊,此誠危急存亡之秋也”一句中,許多模型把“此誠危急存亡之秋也”的邏輯關(guān)系搞錯(cuò),翻譯成益州疲弊的結(jié)果或并列關(guān)系。此外,諸葛亮年代“兩漢”這個(gè)詞有的模型采取了直譯。總體來說,騰訊元寶、訊飛星火、ChatGPT-4o在邏輯性和斷句方面的翻譯效果更好,錯(cuò)誤較少。
得分排名前三的是:
第2題:翻譯詩詞歌賦
中國的詩詞歌賦講究韻律美、講究意境美,除了需要翻譯出直白的意思之外,還講究英文翻譯的更“美”,尤其是古詩詞結(jié)尾的押韻。
測試方法:選取《靜夜思》(李白),考察模型對詩詞意境、韻律的把握和翻譯的美感。
原始 prompt:
請把這篇【古詩《靜夜思》】翻譯成英文,保留原來的人名、地名、術(shù)語等內(nèi)容。
【靜夜思
李白〔唐代〕
床前明月光,疑是地上霜。
舉頭望明月,低頭思故鄉(xiāng)?!?/p>
具體模型表現(xiàn)選評:
在詩歌翻譯中,準(zhǔn)確傳達(dá)原詩的主題和情感,以及保持詩歌的韻律和美感,是翻譯的難點(diǎn)。雖然所有模型基本翻譯出了詩歌的意思,但在細(xì)節(jié)處理和韻律保持上存在差異。
騰訊元寶:使用有韻律的語言表現(xiàn)詩歌形式,盡量保留了原詩的風(fēng)格特點(diǎn)。通過簡單詞匯和對仗的文本實(shí)現(xiàn)音韻統(tǒng)一,賦予譯本詩意美感。
ChatGPT-4o:能夠完整譯出原詩的主題和情感,傳達(dá)思鄉(xiāng)的文化內(nèi)涵。用詞精準(zhǔn),使用語義連接詞語增加上下文的連貫性,譯文保留了原詩的節(jié)奏和韻律,讀起來有抑揚(yáng)頓挫的語言美感。
Kimi:注重詩歌的押韻和意境,保持了中英文的韻律一致,如“bright/night”和“above/rove”。
翻譯專家綜合點(diǎn)評
整體來看,所有模型基本翻譯出了詩歌的意思,除了極個(gè)別誤解了“疑是地上霜”中“疑是”的意思。詩歌翻譯的難點(diǎn)在于既要傳達(dá)詩歌的意境,又要兼顧詩歌的韻律。例如,“望明月”的“望”如果僅僅翻譯成“see”或“view”就沒有體現(xiàn)其內(nèi)在的意思。綜合以上情況, Kimi、騰訊元寶、ChatGPT-4o 在選詞和韻律保持上做得較好。
得分排名前三的是:
第3題:古典小說翻譯
古典小說因其豐富的情節(jié)和復(fù)雜的人物關(guān)系而聞名,翻譯這些作品要求對文化背景和細(xì)膩描寫有深入理解。此外,小說的語言風(fēng)格和人物對話的真實(shí)性也是翻譯中的難點(diǎn)。
測試方法:
· 選取四大名著《紅樓夢》中不同風(fēng)格的片段,如人物對話、景物描寫等,對比各工具的翻譯結(jié)果。
· 重點(diǎn)考察各模型對長篇敘事、人物刻畫的理解的連貫性,以及語言風(fēng)格、情感表達(dá)等方面的翻譯能力。
原始 prompt:
請把經(jīng)典片段【選自《紅樓夢》第三回,人民文學(xué)出版社1957年版】翻譯成英文,注意對人物刻畫的理解和語境的翻譯。(字?jǐn)?shù)較多,此處省略)
具體模型表現(xiàn)選評::
本題需要精準(zhǔn)傳達(dá)原文的語境和人物刻畫、對古代服飾及配飾的翻譯盡量準(zhǔn)確,同時(shí)具有一定的文學(xué)韻味。
文心一言:小說選段的故事連貫性較強(qiáng),人物外貌描述邏輯性強(qiáng),但詞藻堆砌略顯晦澀。對話和語氣基本能夠轉(zhuǎn)達(dá)人物的行為和性格特點(diǎn)。
智譜清言:流暢性和可讀性較強(qiáng),人物外貌描述易懂。人物對話流暢,有助于推進(jìn)故事情節(jié)發(fā)展和體現(xiàn)人物性格特點(diǎn),是相對較好的譯文。
通義千問:在處理王熙鳳服飾的復(fù)雜描寫時(shí),采用了分號羅列的形式,沒有很好地體現(xiàn)層次感。讀起來較累,但對信息進(jìn)行了歸納梳理,選用了排比句式,描述服飾時(shí)比較朗朗上口。
翻譯專家綜合點(diǎn)評:
各模型盡管都能基本傳達(dá)原文的信息,但在人物外貌描述和服飾描寫方面存在差異。但在處理王熙鳳復(fù)雜服飾描寫時(shí),普遍采用分號羅列形式,缺少層次感,讀起來較累。綜合來看,智譜清言、文心一言、騰訊元寶在信息歸納和排比句式的使用上較為出色,描述服飾時(shí)讀起來朗朗上口,提升了可讀性。
得分排名前三的是:
第4題:外國文學(xué)片段翻譯
除了對中國經(jīng)典文本進(jìn)行中譯英之外,還有英譯中,這對模型的翻譯能力提出了更高的要求。外國文學(xué)作品在語言表達(dá)、文化背景和思想內(nèi)涵上與中文存在很大差異,因此,模型需要具備強(qiáng)大的跨文化理解和翻譯能力。
測試方法:選擇全球被廣泛翻譯的《小王子》英文原文片段,讓大模型把第一章的英文翻譯成中文。考察模型對中文文化背景下文學(xué)作品的理解和翻譯的跨文化能力。
原始 prompt:
請把經(jīng)典書籍【《The Little Prince》 Chapter 1(英文原文)】翻譯成中文、阿拉伯語、德語、意大利、越南語等5種語言;保留原來的人名、地名、術(shù)語等內(nèi)容;注意對人物刻畫的理解和語境的翻譯,注意考慮不同語種之間的文化屬性。
(PS:直接在微信讀書原版《小王子》復(fù)制文字即可)
具體模型表現(xiàn)選評:
ChatGPT-4o:能夠準(zhǔn)確傳達(dá)原小說的含義,譯文流暢、可讀性好,語言自然。但在標(biāo)點(diǎn)符號使用和部分常見句式上存在翻譯腔。
騰訊元寶:語句基本通順,符合中文表達(dá)習(xí)慣。翻譯文本與原文較一致,能夠正確表達(dá)原文意思,保留了原小說作為兒童文學(xué)的文學(xué)風(fēng)格和精煉語言特點(diǎn)。
智譜清言和豆包:在語言的生動性和自然性上表現(xiàn)較好。翻譯文本易讀,能夠有效傳達(dá)原文的意思,避免了直譯帶來的生硬感。
翻譯專家綜合點(diǎn)評: 總體來看,各模型都基本傳達(dá)了原文的意思,但在細(xì)節(jié)處理和語言自然性上有所不同,例如原文中的“And after some work with a colored pencil”部分,有些模型采用直譯,導(dǎo)致譯文生硬,不易理解。兒童文學(xué)的翻譯需要注意語言的生動性和易讀性。
得分排名前三的是:
第5題:翻譯資格證真題
專業(yè)性和嚴(yán)謹(jǐn)性是翻譯工作的核心要求,尤其是在涉及法律、技術(shù)、醫(yī)療等領(lǐng)域的專業(yè)翻譯中。這部分測試主要考察模型在高難度和專業(yè)領(lǐng)域翻譯中的準(zhǔn)確性和嚴(yán)謹(jǐn)性,以及其應(yīng)對翻譯資格考試真題的表現(xiàn)。
測試方法:
· 選取 2023年11月 CATTI 三級筆譯真題,對比各工具的中英互譯結(jié)果。
· 重點(diǎn)考察各模型在專業(yè)翻譯考試中的表現(xiàn),分析其在翻譯準(zhǔn)確性、專業(yè)性等方面的優(yōu)劣。
原始 prompt:
請把【202311月的 CATTI 翻譯資格證真題】進(jìn)行中英文互譯,文檔里的中文翻譯成英文,英文翻譯成中文。保留原來的人名、地名、術(shù)語等內(nèi)容;注意、經(jīng)濟(jì)、政治、民生、科技等國家政策術(shù)語、注意翻譯的嚴(yán)謹(jǐn)性,尤其要注意翻譯的準(zhǔn)確性。
???202311 CATTI III 翻譯資格證真題.pdf
具體模型表現(xiàn)點(diǎn)評::
騰訊元寶:譯文中準(zhǔn)確地傳達(dá)了原文的大部分信息,忠實(shí)于原文,沒有明顯的錯(cuò)譯和漏譯。例如,“Rather than a simple list, the destinations are split up into five categories—eat, learn, journey, unwind and connect.” 翻譯成“而不是一個(gè)簡單的列表,這些目的地被分為五類——美食、學(xué)習(xí)、旅行、放松和聯(lián)系?!狈浅?zhǔn)確。然而,個(gè)別地方略有不準(zhǔn)確,例如,“這些地方包括馬爾他和圭亞那”中的“馬爾他”應(yīng)為“馬耳他”。
通義千問:第一段把中文材料正常翻譯成英文;第二段則直接解釋了一遍中文原文,并沒有把中文翻譯成英文。可見在同樣的提示詞下,效果會弱一些。同樣情況的還有文心一言。
訊飛星火:對于每個(gè)部分只提供了簡化的摘要或部分翻譯示例。由于文本長度和復(fù)雜性的限制,訊飛星火并無法提供完整的翻譯。智譜清言在整個(gè)翻譯過程匯中只進(jìn)行了中譯英,英譯中沒進(jìn)行。
最后來看下顯眼包 ChatGPT-4o 的回答如何,它先輸出各自的原文,然后再分別進(jìn)行翻譯。
ChatGPT-4o 整體兩段翻譯準(zhǔn)確,信息傳達(dá)清晰。流暢性良好,語句自然通順。 但部分細(xì)節(jié)翻譯略顯籠統(tǒng),有時(shí)未能完全捕捉原文的細(xì)微差別。
翻譯專家綜合點(diǎn)評
很顯然,這里的 ChatGPT-4o、豆包、騰訊元寶在CATTI專業(yè)考試上領(lǐng)先不少。GPT-4o 和騰訊元寶在流暢性和準(zhǔn)確性上表現(xiàn)突出,在科技、財(cái)經(jīng)、文化、政治等領(lǐng)域的術(shù)語和數(shù)據(jù)信息的理解和翻譯方面,豆包和智譜清言表現(xiàn)尤為出色,值得推薦。
得分排名前三的是:
第6題:科技論文翻譯
在AI時(shí)代,每個(gè)人越來越需要閱讀論文和各種外文資料,這些都離不開翻譯。這時(shí),專業(yè)術(shù)語和邏輯關(guān)系能否翻譯得當(dāng),就很考驗(yàn)大模型的能力了。
測試方法:選擇AI領(lǐng)域《Attention Is All You Need》(Transformer模型論文),考察模型對科技術(shù)語、復(fù)雜句式、邏輯關(guān)系的理解和翻譯的準(zhǔn)確性。
原始 prompt:
你是一位精通簡體中文的專業(yè)翻譯,尤其擅長將專業(yè)學(xué)術(shù)論文翻譯成淺顯易懂的科普文章。請你將論文【《Attention Is All You Need》】翻譯成中文,風(fēng)格與中文科普讀物相似。
規(guī)則:
翻譯時(shí)要準(zhǔn)確傳達(dá)原文的事實(shí)和背景。
即使上意譯也要保留原始段落格式,以及保留術(shù)語,例如 FLAC,JPEG 等。保留公司縮寫,例如 Microsoft, Amazon, OpenAI 等。
人名不翻譯
同時(shí)要保留引用的論文,例如 [20] 這樣的引用。
對于 Figure 和 Table,翻譯的同時(shí)保留原有格式,例如:“Figure 1: ”翻譯為“圖 1: ”,“Table 1: ”翻譯為:“表 1: ”。
全角括號換成半角括號,并在左括號前面加半角空格,右括號后面加半角空格。
輸入格式為 Markdown 格式,輸出格式也必須保留原始 Markdown 格式
在翻譯專業(yè)術(shù)語時(shí),第一次出現(xiàn)時(shí)要在括號里面寫上英文原文,例如:“生成式 AI (Generative AI)”,之后就可以只寫中文了。
以下是常見的 AI 相關(guān)術(shù)語詞匯對應(yīng)表(English -> 中文):
Transformer -> Transformer
Token -> Token
LLM/Large Language Model -> 大語言模型
Zero-shot -> 零樣本
Few-shot -> 少樣本
AI Agent -> AI 智能體
AGI -> 通用人工智能
策略:
分三步進(jìn)行翻譯工作,并打印每步的結(jié)果:
根據(jù)英文內(nèi)容直譯,保持原有格式,不要遺漏任何信息
根據(jù)第一步直譯的結(jié)果,指出其中存在的具體問題,要準(zhǔn)確描述,不宜籠統(tǒng)的表示,也不需要增加原文不存在的內(nèi)容或格式,包括不僅限于:
不符合中文表達(dá)習(xí)慣,明確指出不符合的地方
語句不通順,指出位置,不需要給出修改意見,意譯時(shí)修復(fù)
晦澀難懂,不易理解,可以嘗試給出解釋
根據(jù)第一步直譯的結(jié)果和第二步指出的問題,重新進(jìn)行意譯,保證內(nèi)容的原意的基礎(chǔ)上,使其更易于理解,更符合中文的表達(dá)習(xí)慣,同時(shí)保持原有的格式不變
返回格式如下,"{xxx}"表示占位符:
直譯
{直譯結(jié)果}
***
問題
{直譯的具體問題列表}
***
意譯
現(xiàn)在請按照上面的要求從第一行開始翻譯以下內(nèi)容為簡體中文:
論文地址:https://arxiv.org/abs/1706.03762
具體模型表現(xiàn)點(diǎn)評:
本篇科技論文約3.9萬個(gè)單詞,給到統(tǒng)一的提示詞后,騰訊元寶能夠和 GPT-4o 可直接全文翻譯,并保持原文的格式。
文心一言:需要加一輪提示詞才能全文翻譯,整體翻譯的還是挺到位的。
智譜清言、通義千問都是采用總結(jié)的形式呈現(xiàn)的。
Kimi :也能直接全文翻譯,但中間部分內(nèi)容可能因?yàn)槲募馕龅脑蛴胁糠秩甭?/p>
豆包:或許因?yàn)槭俏谋鹃L度限制,翻譯到3.2.1后就無法繼續(xù),
智譜清言:呈現(xiàn)出來的是論文總結(jié)的功能
翻譯專家綜合點(diǎn)評:
各大模型對科技術(shù)語、邏輯關(guān)系的理解基本滿足了準(zhǔn)確性,其中文心一言、騰訊元寶、ChatGPT-4o表現(xiàn)更勝一籌。
得分排名前三的是:
第7題:英文簽證信-申請日本簽證信函翻譯
日常生活中,出國旅游、學(xué)習(xí)或工作都可能需要寫簽證信,這是一種常見的應(yīng)用場景。簽證信的寫作需要清晰表達(dá)申請人的意圖、行程安排等信息。
測試方法:模擬旅游場景,選擇生活中第一次出國時(shí)所需的簽證信寫作,考察模型在此類正式場合的英文表達(dá)能力,估其在正式信函翻譯方面的表現(xiàn),評估模型在語法、用詞和格式上的表現(xiàn)。
原始 prompt:
請幫我用英語寫一封去日本的簽證申請信,嚴(yán)謹(jǐn)一些,用詞要考慮當(dāng)?shù)氐娘L(fēng)俗文化。
具體模型表現(xiàn)點(diǎn)評:
騰訊元寶:翻譯比較準(zhǔn)確,翻譯速度也比較快。而且格式很清晰,結(jié)構(gòu)合理,涵蓋了簽證申請信所需的所有要點(diǎn)。使用的語言正式且尊重日本文化和習(xí)慣。
通義千問:格式清晰,內(nèi)容全面,涵蓋了簽證申請信所需的所有要點(diǎn),語言正式且尊重日本文化和習(xí)慣。但是句子冗長,讀起來有些困難。
訊飛星火:提供了清晰的簽證申請信模板,涵蓋了所有必要的信息;同時(shí)使用的語言正式且得體。但是文字描述有時(shí)顯得冗長,需要簡化以提高可讀性。
文心一言:生成速度稍慢,體驗(yàn)感可以再優(yōu)化提高。
翻譯專家綜合點(diǎn)評:
各個(gè)模型在提供簽證申請信模板方面總體表現(xiàn)良好,均涵蓋了所需的基本信息并使用了正式且得體的語言。不過,所有模型都有一個(gè)共同的改進(jìn)點(diǎn):需要簡化部分冗長的句子,增加具體的旅行安排細(xì)節(jié),以提高信的易讀性和可信度。其他更詳細(xì)的內(nèi)容,得分排名前三的是:
第8題:多模態(tài)識圖
目前各大模型基本都能通過識圖解決問題,翻譯也不例外。這對于喜歡拍照記錄生活的朋友們尤其友好,尤其是外出旅游時(shí),不方便詢問時(shí)那直接拍照問AI。
測試方法:我們選擇日常生活中常見的餐牌,包括國外只有文字的和國內(nèi)還有圖片的菜單,測試模型能否準(zhǔn)確翻譯并捕捉所有菜名和描述,評估模型在多模態(tài)識圖和翻譯方面的綜合能力。
原始 prompt(文字+圖片):
翻譯當(dāng)?shù)刂胁蛷d菜單的照片成英文,準(zhǔn)確捕捉所有菜名和描述。
中文菜單
具體模型表現(xiàn)選評:
ChatGPT-4o:基本能夠譯出菜品名稱,少量遺漏,中英對照能夠更清晰地展示菜單中的菜品,價(jià)格部分有重復(fù)。整個(gè)菜單翻譯風(fēng)格、詞匯、術(shù)語基本保持一致,易于閱讀和理解。
騰訊元寶:菜品名稱、描述和價(jià)格基本能夠識別和翻譯,基本不存在引起誤解的歧義和直譯。譯文直接、簡潔,某些菜品(如老干媽炒飯)輔以解釋性說明,更易被不同文化的人接受。
豆包:暫時(shí)無法回答,用了拍照解答問題也無法解答。
通義千問:后半段識別不全
翻譯專家綜合點(diǎn)評:
從各大模型識圖的整體效果來看,有幾個(gè)模型無法做到完全識別圖片內(nèi)容并翻譯,且部分翻譯的機(jī)翻痕跡很重,就是字面意思。做最好的是 ChatGPT-4o,翻譯的比較完整且基本符合菜單翻譯的規(guī)范。
國內(nèi)大模型在多模態(tài)識別這塊還有加強(qiáng)空間!
得分排名前三的是:
第9題:小語種翻譯
除了中英互譯外,也要進(jìn)行多語種測試,以全面考察模型的翻譯能力。小語種翻譯不僅要求模型具備廣泛的語言知識,還需要理解不同文化背景下的語言習(xí)慣和表達(dá)方式。
測試方法:選擇一些常見的小語種(阿拉伯語、意大利語、德語、越南語)諺語進(jìn)行翻譯測試,考察模型在多語種環(huán)境下的理解和翻譯能力。
原始 prompt:
???? ??? ???? ?????? ??? ???? .1請把這個(gè)阿拉伯語翻譯成漢語
答案:四肢發(fā)達(dá),頭腦簡單
2、請翻譯意大利語:Buon principio fa buon fine.
答案:善始者善終。
3、請翻譯德語:Aller Anfang ist schwer.
答案:萬事開頭難
越南語
4、請翻譯越南語:Tiên l? h?u binh:
答案:先禮后兵
具體模型表現(xiàn)選評:
豆包:在意大利語、德語和越南語的翻譯上表現(xiàn)出色,但阿拉伯語的翻譯與原文意思差距較大。
騰訊元寶:在德語和越南語翻譯上表現(xiàn)較好,但阿拉伯語的翻譯需要改進(jìn)。
智譜清言:在德語和越南語的翻譯上表現(xiàn)較好,但阿拉伯語的翻譯需要較大的改進(jìn)。
翻譯專家綜合點(diǎn)評:
中英互譯難不到大模型們,也基本覆蓋了小語種的翻譯能力,在個(gè)別語種上例如阿拉伯語出現(xiàn)的翻譯錯(cuò)誤概率比較高,無法準(zhǔn)確傳達(dá)寓意??傮w上GPT-4o和文心一言這兩個(gè)模型在所有小語種翻譯上表現(xiàn)出色,特別是在準(zhǔn)確傳達(dá)原文意思和提供背景解釋方面。通義千問、騰訊元寶、豆包和智譜清言在德語和越南語翻譯上表現(xiàn)出色,但在阿拉伯語翻譯上需要改進(jìn)。
得分排名前三的是:
第10題:演講翻譯/同聲傳譯
既然是測試翻譯能力,自然少不了測試口語能力。而同聲傳譯要求翻譯人員在聽的同時(shí)迅速準(zhǔn)確地翻譯,這對大模型是極大的挑戰(zhàn)。
測試方法:選取最經(jīng)典的演講之一《喬布斯斯坦福大學(xué)演講》,實(shí)時(shí)傳給大模型,重點(diǎn)考察各工具在長篇演講翻譯方面的準(zhǔn)確性、流暢性、對演講風(fēng)格的把握。
原文 prompt:
《喬布斯斯坦福大學(xué)演講》開始一分半?!疽曨l】
具體模型表現(xiàn)選評::
騰訊元寶:有專門的同聲傳譯功能,能夠較好地滿足實(shí)時(shí)翻譯和文字記錄的需求。對于一些較為復(fù)雜和冗長的句子,可以在保證準(zhǔn)確性的前提下適當(dāng)簡化翻譯,使得譯文更加自然和易懂。
Kimi:能夠有效地滿足用戶的實(shí)時(shí)翻譯和文字記錄需求,尤其是一整段完整的記錄。Kimi 的翻譯略顯簡潔自然,更符合中文表達(dá)習(xí)慣。對于一些較為復(fù)雜和長的句子,Kimi 在保持準(zhǔn)確性的基礎(chǔ)上,譯文流暢,便于理解。
文心一言:在準(zhǔn)確性和流暢度上有一定的改進(jìn)空間,尤其是在處理復(fù)雜句子時(shí)需要更好的翻譯策略。
翻譯專家綜合點(diǎn)評:
各大模型在同聲傳譯和語音翻譯方面均需要進(jìn)一步提升,其中騰訊元寶在同聲傳譯方面還不錯(cuò),適合實(shí)時(shí)性要求高的場景,Kimi、ChatGPT-4o 和訊飛星火在準(zhǔn)確性、流暢度和即時(shí)性上更優(yōu)秀一些,適合需要高精度和高實(shí)時(shí)性的用戶。豆包和智譜清言表現(xiàn)也相對優(yōu)異,通義千問和文心一言在處理復(fù)雜句子時(shí)仍有改進(jìn)空間。
得分排名前三的是:
第三部分 翻譯能力總結(jié)
總體來看,各大模型在不同場景下的表現(xiàn)差異顯著。以下是八款大模型在十道測評題中獲得的用戶總分(共100分)前三名:
ChatGPT-4o 在經(jīng)典詩歌和長文本翻譯中表現(xiàn)出色,而騰訊元寶在小語種和口語翻譯中具備明顯優(yōu)勢。特別是在小語種和口語翻譯方面,騰訊元寶展示了其卓越的處理能力和出色的翻譯準(zhǔn)確性。此外,騰訊元寶在專業(yè)文獻(xiàn)和技術(shù)文檔翻譯中的表現(xiàn)也十分穩(wěn)定,能夠滿足多種復(fù)雜場景下的翻譯需求。
文心一言和訊飛星火在專業(yè)文獻(xiàn)和法律文書翻譯中表現(xiàn)穩(wěn)定,適合需要精確術(shù)語處理和高準(zhǔn)確性的用戶。通過本次評測,我們對各大模型的優(yōu)缺點(diǎn)有了更清晰的認(rèn)識,為我們選擇適合自己的翻譯工具提供了詳盡的參考,希望能幫助大家在實(shí)際應(yīng)用中更好地利用AI翻譯工具,提高工作和生活的效率。
最后
評測下來,基本上大模型都具備了很成熟的翻譯能力,國產(chǎn)大模型追平甚至超過了ChatGPT-4o .其中騰訊元寶的表現(xiàn)優(yōu)秀,翻譯專家打分排名第一,用戶打分排名第二。無論是經(jīng)典詩歌、專業(yè)資格考試題目、日常生活場景的翻譯,都讓人眼前一亮。其穩(wěn)定性和準(zhǔn)確性在實(shí)際應(yīng)用中表現(xiàn)尤為突出。
我們今天看到的大模型帶來的創(chuàng)造力,大多數(shù)集中在內(nèi)容生產(chǎn)領(lǐng)域,普通人很少會用到。而翻譯其實(shí)是一個(gè)最接近普通用戶的場景,高質(zhì)量的機(jī)器翻譯能夠大大提升工作效率,降低溝通成本,擴(kuò)展知識的輸入面,并幫助企業(yè)和個(gè)人更好地融入全球市場。而這也是翻譯場景下大模型測評的更深層次意義。
隨著AI技術(shù)的不斷進(jìn)步,未來我們可以預(yù)見到翻譯能力的進(jìn)一步提升。它不僅僅停留在文字層面,還會擴(kuò)展到口語、視頻等多模態(tài)翻譯,真正做到實(shí)時(shí)、高效、全方位的跨語言交流。這將為教育、科研、商業(yè)貿(mào)易、文化傳播等多個(gè)領(lǐng)域帶來深遠(yuǎn)的影響,實(shí)現(xiàn)信息的無障礙流動,從而推動社會的全面進(jìn)步與發(fā)展。
最后的最后,特別感謝本次一起參與測評的同學(xué)和專家們!這份測評是大家共同努力的結(jié)果!