孫蒙鴿1,2 韓濤1,2 王燕鵬1,2 黃雨馨1,2 劉細文1,2*
1 中國科學院文獻情報中心
2 中國科學院大學 經(jīng)濟與管理學院 信息資源管理系
ChatGPT模型的出現(xiàn),對學術、教育及產(chǎn)業(yè)界均造成了很大的影響。基礎科研領域的發(fā)展是大國科技競爭力的重要保證,直接決定了社會各方面進步的步伐,重要性不言而喻。目前,在基礎科學研究領域,基于ChatGPT的研究已產(chǎn)生較多突破性成果,大語言模型技術在輔助科研人員進行研發(fā)工作或理解基礎科學問題的同時,也在改變甚至顛覆基礎科研生態(tài)。
那么,ChatGPT在基礎科學研究領域的應用現(xiàn)狀如何?影響幾何?在研究中使用的邊界和隱患在哪里?為此,本研究立足以上問題,構建系統(tǒng)分析框架,討論ChatGPT模型對于基礎科學研究的潛在影響和可能的應對方法,助力科學研究生態(tài)的健康發(fā)展。
1
GPT技術變革路徑
ChatGPT在自然語言處理方面表現(xiàn)出來的性能已然達到了一騎絕塵的地步。通過GPT家族模型的發(fā)展路徑(圖1)看出,GPT系列模型的成功標志著人工智能從以專用小模型訓練為主的“手工作坊時代”邁入到以通用大模型預訓練為主的“工業(yè)化時代”,成為AI發(fā)展的分水嶺。
2
GPT技術革命對基礎科學研究的影響
文章將從應用牽引、原理驅動、創(chuàng)新主體遷移3個視角分析GPT技術變革對基礎科研的影響(圖2)。
圖2 GPT技術變革對基礎科學研究影響的全景圖
應用牽引及其影響
按照由低到高的能力層次,可將GPT技術在基礎科學研究中的應用分為3個模式(圖3)。
1
工程化應用
該模式主要是增加GPT模型的對外接口,將其作為通用的科研數(shù)字助手,協(xié)助科學研究的日常工作流程,提升學術效率。以中國科學院研發(fā)的成果為例,GPT衍生模型的工程化應用案例如表1所示。
2
學科科研創(chuàng)新的助力
該模式主要基于領域數(shù)據(jù)庫(如蛋白質結構數(shù)據(jù)庫)微調(diào)出GPT衍生模型,提高模型在特定科學研究任務上的性能和適配性。目前ChatGPT的表現(xiàn)類似于通才,在細分的專業(yè)性上和行業(yè)中比較頂級的專家還有很大的差距。將ChatGPT作為通用人工智能的技術基座,通過在本地數(shù)據(jù)庫中進行微調(diào),便可以提升模型在不同領域上的專業(yè)性,使其更適用于解決領域場景問題,成為科學假設空間的探索者,目前已有一些探索性研究工作(表2)。
3
科研范式變革的促進
目前,“人機共生”的科研場景中,根據(jù)機器的智能程度由低到高將機器分為輔助做實驗的“實驗員”,輔助高維空間計算的“AI科研助理”,自主進行科研全流程操作、突破人類科學家認知瓶頸的“AI科學家”,這3種形式各有側重,并行發(fā)展。GPT技術主要在后2種角色中發(fā)揮作用,即“科研范式變革促進”模式主要是希望突破“GPT類模型構建虛擬世界”的限制,通過加持實驗類的物理科研設備,以“AI科學家”的身份自主提出科研假說、自主設計實驗方案、自主驗證假說合理性(圖4)。
目前,GPT技術與物理實驗設備的連接主要有2種方式:
1. 打通自然語言和機器指令之間的壁壘,自動生成機器人操作指令。
2. 打通科研假設和科學實驗之間的壁壘,自主生成實驗方案。
應用模式的3個負影響
1
工程化應用模式中,不可避免地面臨科研誠信問題
從文本語法、格式的角度來看,ChatGPT是一個好的“論文制造者”。然而,由于模型參數(shù)過大,GPT大模型會不可控地產(chǎn)生大量的虛構信息。更讓人擔憂的是,隨著大語言模型的發(fā)展,編輯、出版商將很難分辨出人工智能代寫的文章。
2
科研創(chuàng)新模式中,模型透明度的降低削弱了研究可信度
由于GPT-4模型未公布模型規(guī)模等技術細節(jié),這不僅是與開放科學的趨勢背道而馳,也會違背科學研究求證的科研態(tài)度。因此,如果繼續(xù)使用GPT開源模型,則會威脅到結果可復現(xiàn)性,從根本上削弱研究的可信度;同時,無法從根本上回答重大科學研究問題的機理機制,進而無法有根本性突破。
3
科研范式變革模式中,基于開源大數(shù)據(jù)訓練的GPT技術會潛在地放大固有偏見
由于ChatGPT的訓練數(shù)據(jù)來源于大量的互聯(lián)網(wǎng)數(shù)據(jù),其中不可避免地記錄了人類社會潛在的歧視與價值對抗。當ChatGPT輸出明顯具有偏見的研究內(nèi)容時,不僅影響研究者的判斷,更可能因為大量文本的廣泛傳播應用,加深研究者們的認知偏見。
原理驅動及影響
大量模型參數(shù)驅動實驗計算問題的高維空間擬合 |
GPT類大模型核心還是Transformer的體系結構,之所以能在基礎科學研究領域表現(xiàn)出卓越的表現(xiàn),本質還是通過學習巨量的領域科學數(shù)據(jù),借助大量模型參數(shù)對實驗計算問題的高維空間進行了有效擬合。換言之,輸出的僅是統(tǒng)計學上的可能性,缺乏強有力理論知識的支撐。
1
應用的主戰(zhàn)場為數(shù)據(jù)計算密集型領域的高維復雜科學問題
分析上述案例可以發(fā)現(xiàn),GPT技術在基礎科學研究中應用的主戰(zhàn)場為基礎科學研究中的實驗計算領域,即在分子生物學等數(shù)據(jù)積累豐富、結構化程度高、問題定義清晰的實驗計算領域。這主要是因為GPT技術在基礎科學研究中應用的本質是GPT技術的高維建模能力和科學第一性原理的結合。在此過程中,模型參數(shù)是衡量模型復雜度和能力的重要指標,也是高維基礎科學研究得以解決的重要因素。參數(shù)越多,意味著模型能夠處理更多的數(shù)據(jù),學習更多的領域知識,更能幫助研究者探索高維數(shù)據(jù)的內(nèi)在規(guī)律和關系,繼而能夠解決的科學研究問題的復雜度也越高。例如,在生物學領域,ProGen模型基于12億的模型參數(shù)學習蛋白質中氨基酸排序的規(guī)律,幫助研究者快速從頭構建全新的蛋白質。
2
模型適配性由數(shù)據(jù)表現(xiàn)形式?jīng)Q定
由于GPT模型的訓練、應用都是自然語言序列數(shù)據(jù),因此,在實驗計算科學問題中,只有與自然語言相似的序列領域數(shù)據(jù)才可以用GPT模型進行編譯,進而學習蘊含其中的高維復雜知識。典型的領域序列數(shù)據(jù)有:
1. 領域論文、專利數(shù)據(jù)是天然的自然語言數(shù)據(jù)。例如,基于4千億字符訓練的生成式專利語言模型PatentGPT-J-6B,用于自動生成專利權利要求書。
2. 生物大分子,尤其是蛋白質,可以看成是用遺傳密碼撰寫的語句,具有更為復雜的關聯(lián)知識。以“生物版ChatGPT”的ProGen模型為例,通過學習氨基酸如何組合成2.8億個現(xiàn)有蛋白質的“語法”,學習到了蛋白質中氨基酸排序的規(guī)律及其與蛋白結構和功能的關系,進而可從頭開始生成跨多個家族和功能的人造全新蛋白質。
原理驅動視角下的GPT模型應用邊界 |
1
突破實驗計算領域的研究邊界
當模型參數(shù)超過臨界值,GPT模型將突破實驗計算領域中的研究問題邊界,表現(xiàn)出一定的“涌現(xiàn)性”。通俗性表述是在小規(guī)模模型中不存在,但在模型參數(shù)超過閾值的大規(guī)模模型中存在的能力。這些能力在模型訓練時沒有被特別指定,而是由模型的多層結構和參數(shù)之間的相互協(xié)同作用自發(fā)產(chǎn)生的。根據(jù)Chung等學者的研究,模型參數(shù)規(guī)模在大于62億的情況下,可涌現(xiàn)出之前較小模型不具備的能力,模型能力會完成從量變到質變的飛躍,呈現(xiàn)出驚人的爆發(fā)式增長。此外,大模型的涌現(xiàn)能力還存在一些懸而未決的問題,如是什么控制了哪些能力會涌現(xiàn)?如何控制模型涌現(xiàn)理想的能力并確保不理想的能力永不涌現(xiàn)?總之,由于涌現(xiàn)現(xiàn)象的難以預測性和不確定性,需要謹慎地處理涌現(xiàn)結果,并進一步驗證和分析其輸出結果。
2
尚未到達理論推導的研究邊界
雖然GPT類模型在實驗計算科學問題上表現(xiàn)得非常出色,甚至能夠通過圖靈測試,但它尚不能從公理化的知識和實驗數(shù)據(jù)中對自然現(xiàn)象模型進行原理性的推導。針對這個問題,主要從兩個角度分析:
1. 理論推導的核心能力是需要理解因果,而GPT模型表現(xiàn)出來的“智能”僅僅是源于數(shù)據(jù)擬合。人工智能科學家朱迪亞·珀爾認為理解來源于因果模型,而非源于數(shù)據(jù)擬合。ChatGPT僅僅依賴于大量文本數(shù)據(jù)進行預訓練和微調(diào),缺乏對真實世界的直接觀察和經(jīng)驗,難以判斷事件的因果關系。它表現(xiàn)出來的“智能”僅僅是來自人類語料庫里已有的內(nèi)容,當問題在語料庫中不存在人類創(chuàng)作的答案時,ChatGPT智能系統(tǒng)便是無解。然而,對于理論科學來說,最重要的是推導出新的能夠解釋這個世界的理論公式。朱迪亞·珀爾的研究提示引進因果結構模型研究,通過2種研究進路的互補,形成功能—結構深度融合的智能系統(tǒng)或許是新的研究方向。
2. AI模型的黑箱工作機制導致GPT模型尚不具備理論的可解釋能力。哲學家卡爾·波普爾指出,科學家們尋求的不是高度可能的理論而是解釋,即強大而高度不可能的理論。然而,GPT模型仍然是一種基于神經(jīng)網(wǎng)絡的黑箱模型,不能解釋其內(nèi)部的工作機制,其表現(xiàn)出來的“智能”也并非類似于人腦結構和認知機制,更像是一個模式匹配統(tǒng)計引擎,輸出的僅是統(tǒng)計學上的可能性。也就是說,目前的GPT模型核心還是描述和預測,輸出結果總還是缺乏了強有力的支撐,不能像人腦一樣進行跨領域、跨模態(tài)的理論推導。
創(chuàng)新主體遷移及其影響
分析上述內(nèi)容中的案例可以發(fā)現(xiàn),產(chǎn)業(yè)界正逐漸成為GPT助力基礎科學研究的核心主體之一。
1
作為開源知識集成庫,GPT模型助力知識遷移、降低知識獲取門檻
創(chuàng)新主體遷移的根本原因是大量數(shù)據(jù)訓練過的神經(jīng)網(wǎng)絡變?yōu)橐环N新的數(shù)據(jù)、知識存儲模型,GPT類模型更是成為一個擁有豐富知識與經(jīng)驗的“專家”,一個開源知識集成庫,由此實現(xiàn)了不同語種間的知識遷移,同時降低了知識獲取的門檻。一方面,模型的訓練語料是全球各語種的知識庫,均會以問答的形式開源給模型的使用者,使全球任何語種的人都能使用大模型來學習不同語言的知識,實現(xiàn)不同語言間的知識遷移;另一方面,由于GPT類模型成為一種新的數(shù)據(jù)、知識存儲模型,讓信息檢索方式從關鍵字檢索、轉變成具備完整語義的自然語言人機交互檢索,以智能問答的方式改變了原有的知識查詢與獲取的方式,更甚者是對科研方式的顛覆。簡言之,GPT類大模型的存在將會降低科學研究壁壘,吸引更多的學生、產(chǎn)業(yè)參與到科學研究中來。
2
充足的GPT技術發(fā)展資源,助力產(chǎn)業(yè)界有望成為基礎科學研究的核心創(chuàng)新主體之一
GPT模型作為開源知識集成庫的存在,降低了知識獲取、科學研究的壁壘,一定程度上削弱了學術界在基礎科學研究中的主導和控制地位。而產(chǎn)業(yè)界憑借其充足的AI技術發(fā)展資源,即算力、數(shù)據(jù)、場景、人和資本等優(yōu)勢的有機融合,使得人工智能驅動的科學研究(AI for Science)正在向產(chǎn)業(yè)界傾斜。
該現(xiàn)狀對于產(chǎn)業(yè)界和學界的學科研究定位也將產(chǎn)生相關影響。一方面,產(chǎn)業(yè)界商業(yè)動機的存在,促使他們將GPT等AI模型更多地應用到以利潤為導向的研究領域,如醫(yī)藥、材料等實驗計算領域中的科學問題場景中。即計算密集型領域科學問題的突破將慢慢由產(chǎn)業(yè)界和學術界共同突破得來,類似于“巴斯德象限”問題(巴氏殺菌的應用研究和基礎研究之間存在類似的重疊)。然而,這將潛在引導社會發(fā)展方向,并對低收入水平國家的學術研究形成壁壘。另一方面,對于一些根本性的基礎研究,如生命的起源、宇宙大爆炸、量子糾纏的形成機制等理論性研究問題,還需要高校與科研機構作為最主要的核心創(chuàng)新主體。
3
針對我國基于GPT技術發(fā)展基礎科學研究的建議
AI大模型通過重構人類知識檢索、運用的基本方式,成為一種新的生產(chǎn)力。然而,由于GPT大模型具有重投入、長周期、快迭代、高風險等特點,決定了GPT大模型在基礎科學研究中的競爭是大國游戲。在這場競賽中,中國正處于奮起直追的關鍵時期,亟待找到高質量發(fā)展的新路?;谏鲜霈F(xiàn)狀和影響,提出以下3方面建議。
1
投資研發(fā)國家自主可控、受知識產(chǎn)權保護的數(shù)據(jù)與計算平臺,為GPT技術推動基礎科學發(fā)展提供基礎設施建設
從GPT的實現(xiàn)要素看,主要從數(shù)據(jù)、平臺方面加大資源投入。
1. 建立高質量科學數(shù)據(jù)集勢在必行??尚新窂街粸樽詣映槿∫寻l(fā)表科技成果中的科學數(shù)據(jù),構化存儲在數(shù)據(jù)庫里,將其打造成AI for Science時代下重要的生產(chǎn)要素和戰(zhàn)略資產(chǎn)。
2. 將AI數(shù)據(jù)計算平臺打造成科研過程中的基礎設施,加大硬件和經(jīng)費支持。建議打造數(shù)據(jù)計算通用平臺,嵌入科研過程。
3. 對于開源的AI算法進行產(chǎn)業(yè)化時,還需要注意到知識產(chǎn)權的風險。
2
從產(chǎn)學研模式、青年人才資源和知識跨領域流動3方面,為Al推動基礎科學發(fā)展營造可持續(xù)健康生態(tài)
1. 大力提倡產(chǎn)學研模式,讓參與主體各顯本領,保證AI技術健康發(fā)展導向。
2. 引人育人,充分培養(yǎng)吸納海內(nèi)外青年人才,保證人才資源的不竭供應。
3. 促進知識跨領域流動,推動AI技術與基礎科學發(fā)展有機結合。
3
鼓勵人機協(xié)作與科研誠信監(jiān)管并重,為Al推動基礎科學發(fā)展營造公開透明的環(huán)境
當前,科學研究不可避免地正進入人機協(xié)作的時代,微軟公司更是認為GPT-4是通用人工智能的火花。但我們還需要清醒地認識到當前的AI for Science模型,包括最新的GPT-4,存在著生成錯誤文本信息、邏輯推理和因果推斷的表現(xiàn)能力較低等問題,因此它們尚不能算是一個完美的科研工具??偟膩碚f,GPT類大模型的應用價值將在文本處理等方面幫助學者處理初級科研任務,或在高維數(shù)據(jù)建模方面幫助學者處理科研計算任務,但其應用效果還取決于學者的認知水平。
孫蒙鴿 中國科學院文獻情報中心在讀博士生。主要研究方向:情報理論與方法、人工智能驅動的科學研究(AI4Science)。
劉細文 中國科學院文獻情報中心主任、研究員,中國科學院大學特聘崗位教授,《智庫理論與實踐》主編。長期從事科技政策情報研究與服務、科技戰(zhàn)略情報研究、技術競爭情報研究、區(qū)域經(jīng)濟發(fā)展等。
文章源自:
孫蒙鴿, 韓濤, 王燕鵬, 等 . GPT 技術變革對基礎科學研究的影響分析. 中國科學院院刊, 2023, 38(8): 1212-1224. DOI: 10.16418/j.issn.1000-3045.20230512003
總監(jiān)制:楊柳春
責任編輯:張帆
助理編輯、校對:PAN
排版:立夏