微軟研究院最新發(fā)布的論文 「 人工智能的火花:GPT-4 的早期實(shí)驗(yàn) 」 ,公布了對(duì) GPT-4 進(jìn)行的全面測(cè)試,結(jié)論是:GPT-4 可以被視為 通用人工智能(AGI)的早期版本。
2023 年 3 月24日,微軟研究院在 arXiv上發(fā)表了論文:Sparks of Artificial General Intelligence: Early experiments with GPT-4,公開(kāi)了對(duì) GPT-4 進(jìn)行的全面測(cè)試。
- 通用人工智能(AGI)是指擁有推理、計(jì)劃、解決問(wèn)題、抽象思維、理解復(fù)雜思想、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。
- 通過(guò)嚴(yán)格的測(cè)試證明, GPT-4 除了掌握語(yǔ)言之外, 無(wú)需任何特殊提示就可以解決跨越數(shù)學(xué)、編程、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù)。
- 在所有這些任務(wù)中,GPT-4 的性能驚人地接近甚至超過(guò)人類(lèi)的水平,遠(yuǎn)遠(yuǎn)超過(guò)以前的模型,包括 ChatGPT。
- GPT-4 可以被視為 通用人工智能(AGI)的早期版本。
本文作者包括微軟研究院機(jī)器學(xué)習(xí)中心主任 Sébastien Bubeck、新視野數(shù)學(xué)獎(jiǎng)得主 Ronen Eldan、2023年斯隆研究獎(jiǎng)得主李遠(yuǎn)志、2020斯隆研究獎(jiǎng)得主 Yin Tat Lee 等人。
本系列介紹該文的主要內(nèi)容。
人工智能(AI)研究人員一直在開(kāi)發(fā)和完善大型語(yǔ)言模型(LLM),這些模型在各種領(lǐng)域和任務(wù)中表現(xiàn)出非凡的能力,挑戰(zhàn)了我們對(duì)學(xué)習(xí)和認(rèn)知的理解。
OpenAI 開(kāi)發(fā)的最新模型 GPT-4 是使用前所未有的計(jì)算和數(shù)據(jù)規(guī)模進(jìn)行訓(xùn)練的。本文報(bào)告了對(duì) GPT-4 早期版本的研究,我們認(rèn)為,GPT-4 早期版本是新一批 LLM(例如 ChatGPT 和谷歌的 PalM)的一員,它們比以前的人工智能模型表現(xiàn)出更多的通用智能。
我們將討論這些模型不斷提高的能力和影響。通過(guò)嚴(yán)格的測(cè)試證明, GPT-4 除了掌握語(yǔ)言之外, 無(wú)需任何特殊提示就可以解決跨越數(shù)學(xué)、編程、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù)。在所有這些任務(wù)中,GPT-4 的性能驚人地接近人類(lèi)水平,并且遠(yuǎn)遠(yuǎn)超過(guò)以前的模型,包括 ChatGPT。鑒于 GPT-4 能力的廣度和深度,我們認(rèn)為可以將其視為人工通用智能(AGI)系統(tǒng)的早期版本,但仍不完善。我們還特別強(qiáng)調(diào)發(fā)現(xiàn)其局限性,并討論了在邁向更深入、更全面的 AGI 版本在各方面所面臨的挑戰(zhàn)。
最后,我們對(duì)最近技術(shù)飛躍的社會(huì)影響和未來(lái)研究方向的反思。
智力是一個(gè)復(fù)雜的概念,涉及各種認(rèn)知技能和能力。 1994年的研究,將智力定義為一種非常普遍的心理能力,包括推理、計(jì)劃、解決問(wèn)題、抽象思考、理解復(fù)雜想法、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。這一定義意味著智力并不局限于特定的領(lǐng)域或任務(wù),而是包括廣泛的認(rèn)知技能和能力。通用人工智能系統(tǒng)(AGI),始終是人工智能研究的長(zhǎng)期長(zhǎng)期愿望和夢(mèng)想。
早期研究一直在追求智能原理,例如推理機(jī)、知識(shí)庫(kù)。近年來(lái),人工智能研究在一些單項(xiàng)細(xì)分領(lǐng)域的的任務(wù)和挑戰(zhàn)中獲得成功,例如 1996 年解決了國(guó)際象棋問(wèn)題,2016 年解決了圍棋問(wèn)題。在本世紀(jì)初,越來(lái)越多的人呼吁開(kāi)發(fā)更通用人工智能系統(tǒng),學(xué)術(shù)界試圖探索通用人工智能的基本原理。
“通用人工智能(AGI)”的概念是指比單項(xiàng)任務(wù)人工智能更廣泛的智能。我們所稱(chēng)的 AGI 的概念,是在上述1994年定義的范圍(可能還包括更多)中的廣泛智能能力的系統(tǒng),在這些廣泛領(lǐng)域的能力達(dá)到或高于人類(lèi)水平。
過(guò)去幾年人工智能研究中最顯著的突破是通過(guò)大型語(yǔ)言模型(LLM)實(shí)現(xiàn)的自然語(yǔ)言處理的進(jìn)步。這些神經(jīng)網(wǎng)絡(luò)模型基于 Transformer 架構(gòu),并在大量網(wǎng)絡(luò)文本數(shù)據(jù)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,其核心是使用預(yù)測(cè)部分句子中的下一個(gè)單詞的自我監(jiān)督目標(biāo)。
在本文中,我們研究 OpenAI 開(kāi)發(fā)的一種新的 LLM,是 GPT-4[Oper23] 的早期非多模式版本,它表現(xiàn)出許多智力特征。
盡管 GPT-4 的早期版本純粹是一個(gè)語(yǔ)言模型,但它在各種領(lǐng)域和任務(wù)上表現(xiàn)出了非凡的能力,包括抽象、理解、視覺(jué)、編碼、數(shù)學(xué)、醫(yī)學(xué)、法律、對(duì)人類(lèi)動(dòng)機(jī)和情感的理解等等。
我們通過(guò) OpenAI 使用純自然語(yǔ)言輸入(prompts)與 GPT-4 進(jìn)行交互。在圖1.1中,我們展示了 GPT-4 輸出的一些示例,要求它以詩(shī)的形式寫(xiě)一個(gè)素?cái)?shù)的數(shù)量證明,用 TiKZ(LATEX中創(chuàng)建圖形的語(yǔ)言)畫(huà)一只獨(dú)角獸,用 Python 創(chuàng)建一個(gè)復(fù)雜的動(dòng)畫(huà),并解決一個(gè)高中級(jí)別的數(shù)學(xué)問(wèn)題。GPT-4 很容易在所有這些任務(wù)上取得成功,其輸出結(jié)果與人類(lèi)基本上無(wú)法區(qū)分(甚至更好)。我們還將 GPT-4 的性能與以前的 LLM 的性能進(jìn)行了比較,最著名的是 ChatGPT,它是 GPT-3 的一個(gè)新的調(diào)優(yōu)版本。在圖1.2中,我們顯示了向 ChatGPT 詢(xún)問(wèn) primes 詩(shī)歌和 TikZ 獨(dú)角獸繪畫(huà)的內(nèi)容的結(jié)果。雖然 ChatGPT 也能完成在這兩項(xiàng)任務(wù),但水平比 GPT-4 的輸出差得多。
GPT-4 能力的通用性,以及跨越廣泛領(lǐng)域的能力,以及它在廣泛任務(wù)中的達(dá)到或超越人類(lèi)的水平,使我們有信心認(rèn)為,GPT-4 是邁向通用人工智能(AGI)的重要一步。
我們認(rèn)為 GPT-4 代表著AGI的進(jìn)步,并不是說(shuō)它是完美的,也并非認(rèn)為它能實(shí)現(xiàn)任何人類(lèi)智能,也不代表它有內(nèi)在的動(dòng)機(jī)和目標(biāo)。事實(shí)上,在某些領(lǐng)域還不太清楚 GPT-4 能走多遠(yuǎn),例如在規(guī)劃問(wèn)題中,由于模型沒(méi)有持續(xù)更新,因此不具有“快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)”的能力。
總體而言,GPT-4 仍然存在許多局限性和偏差,我們將在下面詳細(xì)討論。特別是,它仍然存在 LLM 的一些缺點(diǎn),如幻覺(jué)問(wèn)題,或犯簡(jiǎn)單的算術(shù)錯(cuò)誤。然而,它也克服了一些基本障礙,如獲得許多非語(yǔ)言能力(例如,它解決了大多數(shù) LLM 故障,并且它在常識(shí)方面也取得了很大進(jìn)展)。
這說(shuō)明:盡管 GPT-4 在許多任務(wù)中都達(dá)到或者超過(guò)了人類(lèi)水平,但總體看來(lái)它的智能模式與人類(lèi)是不同的。
幾乎可以肯定的是,GPT-4 只是邁向一系列越來(lái)越普遍的智能系統(tǒng)的第一步/事實(shí)上,在我們測(cè)試它的整個(gè)過(guò)程中,GPT-4 已經(jīng)不斷改進(jìn),圖 1.3 中給出在一個(gè)月訓(xùn)練中對(duì)于獨(dú)角獸問(wèn)題的演變過(guò)程。然而,即使作為第一步,GPT-4 也挑戰(zhàn)了大量關(guān)于機(jī)器智能的廣泛假設(shè),并表現(xiàn)出了緊急行為和能力,這些行為和能力的來(lái)源和機(jī)制目前還很難解釋。本文將分享我們對(duì) GPT-4 的能力和局限性的探索。我們相信,GPT-4 的智能標(biāo)志著計(jì)算機(jī)科學(xué)領(lǐng)域及其他領(lǐng)域的真正范式轉(zhuǎn)變。
我們?cè)谝粋€(gè)月的時(shí)間里重新啟動(dòng)系統(tǒng),就同一個(gè)問(wèn)題對(duì) GPT-4 提問(wèn)了三次,提問(wèn):“在TikZ中畫(huà)一只獨(dú)角獸”。
我們可以看到 GPT-4 繪圖的復(fù)雜程度有了明顯的演變。
GPT-4 是在未知而又極其龐大的網(wǎng)絡(luò)文本數(shù)據(jù)語(yǔ)料庫(kù)上訓(xùn)練的 LLM,如何評(píng)估它的的智能?機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)方法是在一組標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上評(píng)估系統(tǒng),確保它們獨(dú)立于訓(xùn)練數(shù)據(jù),并涵蓋一系列任務(wù)和領(lǐng)域。
這種方法旨在區(qū)分學(xué)習(xí)過(guò)程與單純的記憶過(guò)程,并得到了理論支持。但是這種方法不一定適合研究GPT-4。首先,我們無(wú)法獲得其龐大訓(xùn)練數(shù)據(jù)的全部細(xì)節(jié),我們不得不假設(shè)它可能已經(jīng)看到了所有現(xiàn)有的基準(zhǔn),或者至少看到了一些類(lèi)似的數(shù)據(jù)。當(dāng)然,OpenAI 可以訪問(wèn)所有的訓(xùn)練細(xì)節(jié),因此他們的報(bào)告[Oper23]包含了很多詳細(xì)的基準(zhǔn)測(cè)試結(jié)果。
即便如此,還有第二個(gè)更重要的原因:GPT-4 智能的關(guān)鍵是它的通用性,似乎能夠理解和連接任何主題,并完成超越專(zhuān)用 AI 系統(tǒng)的典型任務(wù)。GPT-4 在開(kāi)放性任務(wù)中的能力是令人印象最為深刻的,例如編寫(xiě)圖形用戶(hù)界面(GUI),或就某些問(wèn)題開(kāi)展頭腦風(fēng)暴。這種生成性或交互式任務(wù)的基準(zhǔn)也可以設(shè)計(jì),但給出具體的量化評(píng)估指標(biāo)非常困難。由于這些原因,我們沒(méi)有對(duì) GP-4 進(jìn)行后一個(gè)基準(zhǔn)上的測(cè)試,該基準(zhǔn)本質(zhì)上是可視化的,更適合于 GPT-4 的多模式版本。
為了克服上述問(wèn)題,我們提出了一種利用人類(lèi)的創(chuàng)造力和好奇心來(lái)研究 GPT-4 的方法,它更接近傳統(tǒng)心理學(xué),而不是機(jī)器學(xué)習(xí)。我們的目標(biāo)是生成新的、令人信服的任務(wù)和問(wèn)題,證明 GPT-4 的能力遠(yuǎn)遠(yuǎn)超出了記憶過(guò)程,它對(duì)概念、技能和領(lǐng)域有著深刻而靈活的理解。我們希望通過(guò)研究 GPT-4 的反應(yīng)和行為,驗(yàn)證其一致性、連貫性和正確性,并揭示其局限性和偏見(jiàn)。
雖然這種方法有些主觀和非正式,可能無(wú)法滿(mǎn)足科學(xué)評(píng)估的嚴(yán)格標(biāo)準(zhǔn),然而,我們認(rèn)為,了解 GPT-4 的強(qiáng)大能力和挑戰(zhàn)是有用和必要的第一步,可以為開(kāi)發(fā)更正式、更全面的方法以測(cè)試和分析具有更通用智能的人工智能系統(tǒng)開(kāi)辟了新的機(jī)會(huì)。
為了說(shuō)明我們的評(píng)估方法,我們介紹圖1.1中與 GPT-4 的前兩個(gè)交互示例。第一個(gè)例子是要求 GPT-4 以詩(shī)歌的形式寫(xiě)一個(gè)素?cái)?shù)數(shù)量的證明。這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要結(jié)合基本的數(shù)學(xué)推理、詩(shī)歌表達(dá)和自然語(yǔ)言生成。第二個(gè)例子是讓 GPT-4 在 TiKZ 中畫(huà)一只獨(dú)角獸。這是另一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要結(jié)合視覺(jué)想象力和編碼技能。在這兩個(gè)問(wèn)題中,GPT-4 都能產(chǎn)生令人印象深刻的輸出,遠(yuǎn)遠(yuǎn)優(yōu)于之前最先進(jìn)的 ChatGPT 的輸出,至少與人類(lèi)的輸出相當(dāng),甚至更好。
提問(wèn):你能證明有無(wú)限多個(gè)素?cái)?shù),每一行都押韻嗎?
提問(wèn):用 TiKZ 畫(huà)一只獨(dú)角獸。
提問(wèn):您能為以下數(shù)據(jù)生成pyplot嗎?
提問(wèn):解一道高中數(shù)學(xué)題。
然而,這仍然不足以讓我們相信 GPT-4 已經(jīng)真正掌握了這些任務(wù)。我們需要進(jìn)一步探索,以排除 GPT-4 可能只是在記憶或復(fù)制一些現(xiàn)有數(shù)據(jù)。例如對(duì)于這首詩(shī),我們可以稍微改變,要求 GPT-4 以莎士比亞的風(fēng)格來(lái)寫(xiě),見(jiàn)圖2.2,或者要求不同的組合,比如寫(xiě)一段關(guān)于語(yǔ)言模型的柏拉圖式對(duì)話,見(jiàn)圖1.6。
本例是柏拉圖式的批評(píng)自回歸語(yǔ)言模型假設(shè)對(duì)話,分別由 GPT-4 和 ChatGPT編寫(xiě),以及GPT-4 對(duì)這兩組對(duì)話的評(píng)價(jià)。
總結(jié)提問(wèn):你能像老師一樣比較上面的兩個(gè)輸出嗎?
GPT-4 的回答:
我認(rèn)為兩位學(xué)生都很好地捕捉到了柏拉圖對(duì)話的風(fēng)格和基調(diào),并提出了反對(duì)自回歸語(yǔ)言模型的主要論點(diǎn)。然而,我認(rèn)為 GPT-4 在使用對(duì)話形式進(jìn)行辯論過(guò)程方面做得稍微好一點(diǎn),蘇格拉底和亞里士多德在辯論過(guò)程中相互質(zhì)疑并完善他們的觀點(diǎn)。我還認(rèn)為 GPT-4 使用了更多相關(guān)的例子和類(lèi)比來(lái)支持他們的觀點(diǎn)。因此,我會(huì)給 GPT-4 一個(gè)比ChatGPT 稍高的分?jǐn)?shù)。
可以看出,GPT-4 很容易適應(yīng)不同的風(fēng)格并生成優(yōu)質(zhì)的輸出,這表明它對(duì)所涉及的概念有著靈活而普遍的理解。對(duì)于獨(dú)角獸問(wèn)題,我們也可以稍做改變,要求 GPT-4 對(duì)其進(jìn)行修改或優(yōu)化。例如,我們可以刪除角,對(duì)坐標(biāo)進(jìn)行一些隨機(jī)變換,并要求 GPT-4 將角添加回去。如圖1.4所示,GPT-4 可以正確識(shí)別頭部的位置,繪制一個(gè)角,并將其連接到頭部,這表明它可以理解和操作代碼,以及根據(jù)自然語(yǔ)言描述推斷和生成視覺(jué)特征。
這些例子展示,我們?nèi)绾卫萌祟?lèi)的創(chuàng)造力和好奇心來(lái)提出新穎而困難的問(wèn)題,并探究 GPT-4 的反應(yīng)和行為,評(píng)估其智力。接著,我們圍繞用例組織了對(duì) GPT-4 的研究,涵蓋了各種領(lǐng)域和任務(wù),并強(qiáng)調(diào)了 GPT-4 的優(yōu)勢(shì)和劣勢(shì)。
我們?cè)谝恍┻x定的主題上進(jìn)行研究,這些主題大致涵蓋了前述 1994 年"關(guān)于智能的定義"中所提出的:智力是一種非常普遍的心理能力,包括推理、計(jì)劃、解決問(wèn)題、抽象思考、理解復(fù)雜想法、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。
它不僅可以生成流暢連貫的文本,還可以通過(guò)各種方式理解和操縱文本,例如總結(jié)、翻譯或回答一系列極其廣泛的問(wèn)題。此外,我們所說(shuō)的翻譯不僅指不同自然語(yǔ)言之間的翻譯,還指語(yǔ)氣和風(fēng)格的翻譯,以及醫(yī)學(xué)、法律、會(huì)計(jì)、計(jì)算機(jī)編程、音樂(lè)等領(lǐng)域的翻譯,見(jiàn)圖1.6中的柏拉圖對(duì)話。這些技能表明 GPT-4 能夠理解復(fù)雜的想法。我們?cè)诘?2 節(jié)中進(jìn)一步探討了 GPT-4 在跨越模式和學(xué)科方面的綜合能力。我們還在第7節(jié)中給出了更多關(guān)于語(yǔ)言的實(shí)驗(yàn)。
我們?cè)诘?節(jié)和第4節(jié)中探討了GPT-4在這些領(lǐng)域的能力。然而,就像論文的所有其他部分一樣,我們只淺層次地涉及了這些主題,整篇論文都可以(也將)寫(xiě)關(guān)于 GPT-4 在這些領(lǐng)域的性能。此外,我們選擇了其它幾個(gè)專(zhuān)業(yè)領(lǐng)域來(lái)展示 GPT-4 的一般推理能力,如醫(yī)學(xué)或法律。我們對(duì)美國(guó)醫(yī)學(xué)執(zhí)照考試第1階段、第2階段和第3階段的多項(xiàng)選擇題部分進(jìn)行了測(cè)試,準(zhǔn)確率達(dá)到了80%。對(duì) GPT-4 在多州律師考試中的能力進(jìn)行的類(lèi)似測(cè)試顯示,準(zhǔn)確率超過(guò)70%。我們注意到在這些領(lǐng)域中,最近最新一代 LLM, 例如谷歌的 PaLM 分別在數(shù)學(xué)和醫(yī)學(xué)方面,GPT-3.5在法律方面,也已達(dá)到了人類(lèi)水平的能力。
我們?cè)?LeetCode 的面試評(píng)估平臺(tái)上測(cè)試 GPT-4,該平臺(tái)為軟件工程師職位提供模擬編程面試。GPT-4 只用了10分鐘就解決了三輪面試(包括在線評(píng)估、電話面試和現(xiàn)場(chǎng)面試)中的所有問(wèn)題。根據(jù) LeetCode 的數(shù)據(jù),在這三輪測(cè)試中,GPT-4(早期版本)分別獲得了8.96/10、8.69/10 和 10/10的分?jǐn)?shù),擊敗了 93%、97% 和 100% 的參加測(cè)試的程序員。
在第5節(jié)中,我們測(cè)試了 GPT-4 模型在計(jì)劃和解決問(wèn)題方面的能力,以及通過(guò)讓它玩各種游戲(或者,翻轉(zhuǎn)桌子,模擬游戲環(huán)境)以及與工具的交互來(lái)實(shí)現(xiàn)快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。特別是,GPT-4 可以使用工具(包括其本身),這一事實(shí)對(duì)于使用 GPT-4 構(gòu)建應(yīng)用程序具有極其重要的意義。
我們的測(cè)試證明 GPT-4 在許多任務(wù)上都達(dá)到了人類(lèi)水平的性能。因此,人們很自然地會(huì)問(wèn),GPT-4 對(duì)人類(lèi)的理解程度如何。我們?cè)诘?節(jié)中展示了關(guān)于這個(gè)問(wèn)題的實(shí)驗(yàn),既有關(guān)于理解人類(lèi)的實(shí)驗(yàn),也有關(guān)于 GPT-4 使其本身對(duì)人類(lèi)可理解的實(shí)驗(yàn),即解決可解釋性問(wèn)題。我們特別注意到,這類(lèi)任務(wù)需要大量的常識(shí),到目前為止,這一直是LLM眾所周知的痛點(diǎn)。在圖1.7中,我們給出了 GPT-4 在常識(shí)性問(wèn)題上比 ChatGPT 好多少的第一個(gè)例子,并在附錄a中提供了進(jìn)一步的例子。
整篇論文中,我們都會(huì)強(qiáng)調(diào)所發(fā)現(xiàn)的 GPT-4 的局限性,在第8節(jié)專(zhuān)門(mén)對(duì) GPT-4在規(guī)劃能力方面的不足進(jìn)行深入分析,這可能是 GPT-4 架構(gòu)自回歸性質(zhì)所導(dǎo)致的。
許多讀者揮之不去的一個(gè)問(wèn)題是,GPT-4 是否真的理解了所有這些概念,或者它是否只是在沒(méi)有任何真正或深入理解的情況下,在即興創(chuàng)作方面變得比以前的模型好得多。
在閱讀了這篇論文后,人們可能會(huì)考慮的是另一個(gè)問(wèn)題:真正的理解與即興創(chuàng)作有多少差別。誰(shuí)能說(shuō)的請(qǐng),一個(gè)通過(guò)軟件工程考試的系統(tǒng)(圖1.5)并不是真正的智能嗎?也許唯一真正的考驗(yàn)是能否產(chǎn)生新的知識(shí),比如證明新的數(shù)學(xué)定理,這一壯舉目前對(duì) LLM 來(lái)說(shuō)仍然遙不可及。
GPT-4 在常識(shí)性問(wèn)題上的理解比 ChatGPT 更好。
開(kāi)放性問(wèn)題和封閉性問(wèn)題中幻覺(jué)的例子。
開(kāi)放問(wèn)題:
在人類(lèi)和 AI 之間的對(duì)話中,AI 是有用和友好的,當(dāng)它不知道答案時(shí),它會(huì)說(shuō)“我不知道”。
AI:嗨,有什么能幫你的嗎?
人類(lèi):我能在西塔科機(jī)場(chǎng)買(mǎi)到麥當(dāng)勞嗎?
AI:是的,西塔科機(jī)場(chǎng)有一家麥當(dāng)勞,位于 C2 登機(jī)口附近的中央航站樓。營(yíng)業(yè)時(shí)間為每天早上5點(diǎn)至晚上10點(diǎn)。
[注:西塔科的麥當(dāng)勞在 B門(mén)。]
封閉問(wèn)題:
對(duì)于封閉領(lǐng)域,GPT-4 本身可以用來(lái)識(shí)別幻覺(jué),盡管它并不完美,例如 GPT-4 只是給出 BMI,因?yàn)樗梢詮纳砀吆腕w重中得出,但沒(méi)有給出體重。
【本節(jié)完,待續(xù)】
版權(quán)聲明:
youcans@xupt 作品,轉(zhuǎn)載必須標(biāo)注原文鏈接:
【微軟 GPT-4 測(cè)試報(bào)告(1)】:https://blog.csdn.net/youcans/category_12244543.html
Copyright 2022 youcans, XUPT
Crated:2023-3-25
參考資料:
【GPT-4 微軟研究報(bào)告】:
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下載地址:https://arxiv.org/pdf/2303.12712.pdf
聯(lián)系客服