選自AI Snake Oil
作者:Arvind Narayanan、Sayash Kapoor
機(jī)器之心編譯
ChatGPT 代替程序員,是我們想多了?
在 OpenAI 發(fā)布 GPT-4 之后,一場(chǎng)有關(guān)「AI 取代人類(lèi)勞動(dòng)力」的討論正變得越來(lái)越激烈。該模型的強(qiáng)大能力及其可能帶來(lái)的潛在社會(huì)影響引發(fā)了很多人的擔(dān)憂(yōu),馬斯克、Bengio 等人甚至聯(lián)名寫(xiě)了一封公開(kāi)信,呼吁所有 AI 機(jī)構(gòu)暫停訓(xùn)練比 GPT-4 更強(qiáng)的 AI 模型,為期至少 6 個(gè)月。
但另一方面,對(duì)于 GPT-4 能力的質(zhì)疑也是此起彼伏。前幾天,圖靈獎(jiǎng)得主 Yann LeCun 在一場(chǎng)辯論中直接指出,GPT 家族所采用的自回歸路線(xiàn)存在天然的缺陷,繼續(xù)往前走是沒(méi)有前途的。
與此同時(shí),一些研究者、從業(yè)者也表示,GPT-4 可能并沒(méi)有 OpenAI 所展示的那么強(qiáng)大,尤其是在編程方面:它可能只是記住了之前的題目,OpenAI 用來(lái)測(cè)試該模型編程能力的題目可能早就存在于它的訓(xùn)練集中,這違反了機(jī)器學(xué)習(xí)的基本規(guī)則。另外,還有人指出,看到 GPT-4 在各種考試中名列前茅就判定 AI 將取代部分職業(yè)的想法是不嚴(yán)謹(jǐn)?shù)?,畢竟這些考試和人類(lèi)的實(shí)際工作還是有差距的。
近期的一篇博客詳細(xì)地闡述了上述想法。
問(wèn)題一:訓(xùn)練數(shù)據(jù)污染
為了對(duì) GPT-4 的編程能力進(jìn)行基準(zhǔn)測(cè)試,OpenAI 使用編程競(jìng)賽網(wǎng)站 Codeforces 上的問(wèn)題對(duì)其進(jìn)行了評(píng)估。令人驚訝的是,GPT-4 解決了 10/10 的 2021 年前的問(wèn)題和 0/10 的近期 easy 類(lèi)問(wèn)題。要知道,GPT-4 的訓(xùn)練數(shù)據(jù)截止日期是 2021 年 9 月。這有力地表明該模型能夠從其訓(xùn)練集中記住解決方案 —— 或者至少部分記住它們,這足以讓它填補(bǔ)它不記得的東西。
圖源:https://twitter.com/cHHillee/status/1635790330854526981
為了進(jìn)一步證明這一假設(shè),博客作者 Arvind Narayanan 和 Sayash Kapoor 在 2021 年不同時(shí)間的 Codeforces 問(wèn)題上對(duì) GPT-4 進(jìn)行了測(cè)試,發(fā)現(xiàn)它可以解決 9 月 5 日之前的簡(jiǎn)單類(lèi)別的問(wèn)題,無(wú)法解決 9 月 12 日之后的問(wèn)題。
作者表示,事實(shí)上,他們可以明確地表明 GPT-4 已經(jīng)記住了訓(xùn)練集中的問(wèn)題:當(dāng)把 Codeforces 問(wèn)題的標(biāo)題加入 prompt 中時(shí),GPT-4 的回答會(huì)包含指向出現(xiàn)該問(wèn)題的確切比賽的鏈接(并且輪數(shù)幾乎是正確的:它差了一個(gè))。注意,當(dāng)時(shí)的 GPT-4 不能上網(wǎng),所以記憶是唯一的解釋。
GPT-4 記住了訓(xùn)練截止日期之前的 Codeforces 問(wèn)題。
論文中的 Codeforces 結(jié)果并沒(méi)有受此影響,因?yàn)?OpenAI 使用的是最近的問(wèn)題(果然,GPT-4 表現(xiàn)很差)。對(duì)于編程以外的基準(zhǔn),作者不知道有什么干凈的方法可以按時(shí)間段分開(kāi)問(wèn)題,所以他們認(rèn)為 OpenAI 不太可能避免污染。但出于同樣的原因,他們也無(wú)法做實(shí)驗(yàn)來(lái)測(cè)試性能在不同日期的變化情況。
不過(guò),他們還是可以尋找一些提示性的跡象。記憶的另一個(gè)征兆是:GPT 對(duì)問(wèn)題的措辭高度敏感。Melanie Mitchell 舉了一個(gè) MBA 測(cè)試題的例子,她改變了這個(gè)例子的一些細(xì)節(jié),這一改變騙不到人,但卻成功欺騙了(運(yùn)行 GPT-3.5 的)ChatGPT。沿著這個(gè)思路做一個(gè)更詳細(xì)的實(shí)驗(yàn)會(huì)很有價(jià)值。
由于 OpenAI 缺乏透明度,作者無(wú)法肯定地回答污染問(wèn)題。但可以肯定的是,OpenAI 檢測(cè)污染的方法是膚淺和草率的:
我們使用子串匹配來(lái)衡量我們的評(píng)估數(shù)據(jù)集和預(yù)訓(xùn)練數(shù)據(jù)之間的交叉污染。評(píng)估和訓(xùn)練數(shù)據(jù)都是通過(guò)去除所有的空格和符號(hào)來(lái)處理的,只保留字符(包括數(shù)字)。對(duì)于每個(gè)評(píng)估實(shí)例,我們隨機(jī)選擇三個(gè) 50 個(gè)字符的子串(如果少于 50 個(gè)字符,則使用整個(gè)實(shí)例)。如果三個(gè)被抽中的評(píng)估子串中的任何一個(gè)是被處理過(guò)的訓(xùn)練例子的子串,那么就可以識(shí)別出一個(gè)匹配。這就產(chǎn)生了一個(gè)被污染的例子的列表。我們丟棄這些,并重新運(yùn)行以獲得未受污染的分?jǐn)?shù)。
這是一個(gè)脆弱的方法。如果一個(gè)測(cè)試問(wèn)題出現(xiàn)在訓(xùn)練集中,但名稱(chēng)和數(shù)字被改變了,它就不會(huì)被發(fā)現(xiàn)。不那么脆弱的方法是現(xiàn)成的,比如說(shuō)嵌入距離。
如果 OpenAI 要使用基于距離的方法,多大程度的相似才是太相似?這個(gè)問(wèn)題沒(méi)有客觀(guān)的答案。因此,即使是像選擇題標(biāo)準(zhǔn)化測(cè)試中的表現(xiàn)這樣看似簡(jiǎn)單的事情,也充滿(mǎn)了主觀(guān)的決定。
但我們可以通過(guò)詢(xún)問(wèn) OpenAI 試圖用這些考試來(lái)衡量什么來(lái)明確一些東西。如果目標(biāo)是預(yù)測(cè)語(yǔ)言模型在現(xiàn)實(shí)世界任務(wù)中的表現(xiàn),那就有一個(gè)問(wèn)題。從某種意義上說(shuō),任何兩個(gè)律師考試或醫(yī)學(xué)考試的問(wèn)題都比現(xiàn)實(shí)世界中專(zhuān)業(yè)人士所面臨的兩個(gè)類(lèi)似任務(wù)更相似,因?yàn)樗鼈兪菑倪@樣一個(gè)受限的空間中提取的。因此,在訓(xùn)練語(yǔ)料庫(kù)中加入任何考試問(wèn)題,都有可能導(dǎo)致對(duì)模型在現(xiàn)實(shí)世界中的有用性的夸大估計(jì)。
從現(xiàn)實(shí)世界的有用性角度來(lái)闡述這個(gè)問(wèn)題,突出了另一個(gè)更深層次的問(wèn)題(問(wèn)題二)。
問(wèn)題二:專(zhuān)業(yè)考試不是比較人類(lèi)和機(jī)器人能力的有效方法
記憶是一個(gè)光譜。即使一個(gè)語(yǔ)言模型在訓(xùn)練集上沒(méi)有見(jiàn)過(guò)某個(gè)確切的問(wèn)題,它也不可避免地看到了非常接近的例子,因?yàn)橛?xùn)練語(yǔ)料庫(kù)的規(guī)模太大了。這意味著它可以用更淺顯的推理水平來(lái)逃避。因此,基準(zhǔn)結(jié)果并沒(méi)有給我們提供證據(jù),證明語(yǔ)言模型正在獲得人類(lèi)考生所需要的那種深入的推理技能,而這些考生隨后會(huì)在現(xiàn)實(shí)世界中應(yīng)用這些技能。
在一些現(xiàn)實(shí)世界的任務(wù)中,淺層推理可能是足夠的,但并不總是如此。世界是不斷變化的,所以如果一個(gè)機(jī)器人被要求分析一項(xiàng)新技術(shù)或一個(gè)新的司法判決的法律后果,它就沒(méi)有什么可借鑒的??傊?Emily Bender 所指出的,為人類(lèi)設(shè)計(jì)的測(cè)試在應(yīng)用于機(jī)器人時(shí)缺乏結(jié)構(gòu)效度。
除此之外,專(zhuān)業(yè)考試,尤其是律師資格考試,過(guò)度強(qiáng)調(diào)學(xué)科知識(shí),而對(duì)現(xiàn)實(shí)世界的技能強(qiáng)調(diào)不足,而這些技能在標(biāo)準(zhǔn)化的計(jì)算機(jī)管理方式下更難衡量。換句話(huà)說(shuō),這些考試不僅強(qiáng)調(diào)了錯(cuò)誤的東西,而且過(guò)度強(qiáng)調(diào)了語(yǔ)言模型所擅長(zhǎng)的東西。
在 AI 領(lǐng)域,基準(zhǔn)被過(guò)度地用于比較不同的模型。這些基準(zhǔn)因?qū)⒍嗑S評(píng)價(jià)壓縮成一個(gè)單一數(shù)字而飽受批評(píng)。當(dāng)它們被用于比較人類(lèi)和機(jī)器人時(shí),得到的結(jié)果是錯(cuò)誤的信息。不幸的是,OpenAI 在對(duì) GPT-4 的評(píng)估中選擇大量使用這些類(lèi)型的測(cè)試,而且沒(méi)有充分嘗試解決污染問(wèn)題。
有更好的方法來(lái)評(píng)估 AI 模型對(duì)職業(yè)的影響
人們?cè)诠ぷ髌陂g可以上網(wǎng),但在標(biāo)準(zhǔn)化考試期間卻不能上網(wǎng)。因此,如果語(yǔ)言模型的表現(xiàn)能夠媲美可以上網(wǎng)的專(zhuān)業(yè)人士,這在某種程度上將能更好地檢驗(yàn)它們的實(shí)際效能。
但這仍然是個(gè)錯(cuò)誤的問(wèn)題。與其用獨(dú)立的基準(zhǔn),我們或許更應(yīng)該衡量語(yǔ)言模型能在多大程度上完成專(zhuān)業(yè)人員必須完成的所有現(xiàn)實(shí)任務(wù)。例如,在學(xué)術(shù)界,我們經(jīng)常會(huì)遇到一些我們不熟悉的領(lǐng)域的論文,其中充滿(mǎn)了專(zhuān)業(yè)術(shù)語(yǔ);如果 ChatGPT 能夠以一種更容易理解的方式準(zhǔn)確地總結(jié)這樣的論文,那就很有用了。有些人甚至還測(cè)試過(guò)這些工具是否能做同行評(píng)議。但即使是這個(gè)場(chǎng)景,你也很難確保用來(lái)測(cè)試的題目沒(méi)有包含在訓(xùn)練集里。
ChatGPT 可以取代專(zhuān)業(yè)人員的想法仍然很牽強(qiáng)。在 1950 年的普查中,270 個(gè)工作中僅有 1 個(gè)被自動(dòng)化淘汰了,那就是電梯操作員。當(dāng)下,我們需要評(píng)估的是那些利用人工智能工具來(lái)幫助自己完成工作的專(zhuān)業(yè)人員。兩項(xiàng)早期的研究是有希望的:一項(xiàng)是 GitHub 用于編程的 copilot,另一項(xiàng)是 ChatGPT 的寫(xiě)作協(xié)助。
在這個(gè)階段,我們更需要定性研究而不是定量研究,因?yàn)檫@些工具太新了,我們甚至不知道該問(wèn)什么正確的定量問(wèn)題。例如,微軟的 Scott Guthrie 報(bào)告了一個(gè)醒目的數(shù)字:GitHub Copilot 用戶(hù)檢查的代碼中有 40% 是人工智能生成的,沒(méi)有經(jīng)過(guò)修改。但任何程序員都會(huì)告訴你,很大一部分代碼由模板和其他通??梢詮?fù)制粘貼的平凡邏輯組成,特別是在企業(yè)應(yīng)用程序中。如果這就是 Copilot 自動(dòng)化的部分,那么生產(chǎn)力的提高將是微不足道的。
作者表示,明確地說(shuō),我們不是說(shuō) Copilot 沒(méi)有用,只是說(shuō)如果沒(méi)有對(duì)專(zhuān)業(yè)人士如何使用人工智能的定性理解,現(xiàn)有的衡量標(biāo)準(zhǔn)將是沒(méi)有意義的。此外,人工智能輔助編碼的主要好處甚至可能不是生產(chǎn)力的提高。
結(jié)論
下圖總結(jié)了這篇文章,并解釋了我們?yōu)槭裁匆约叭绾螖[脫 OpenAI 報(bào)告的那種度量標(biāo)準(zhǔn)。
GPT-4 確實(shí)令人興奮,它可以通過(guò)多種方式解決專(zhuān)業(yè)人士的痛點(diǎn),例如通過(guò)自動(dòng)化,代替我們做簡(jiǎn)單、低風(fēng)險(xiǎn)但費(fèi)力的任務(wù)。目前,專(zhuān)注于實(shí)現(xiàn)這些好處并降低語(yǔ)言模型的許多風(fēng)險(xiǎn)可能是更好的做法。
原文鏈接:
https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks
聯(lián)系客服