【新智元導(dǎo)讀】繼各類輸入端多模態(tài)大語言模型之后,新加坡國立大學(xué)華人團(tuán)隊(duì)近期開源了一種支持任意模態(tài)輸入和任意模態(tài)輸出的「大一統(tǒng)」多模態(tài)大模型,火爆AI社區(qū)。
繼ChatGPT引爆2023年的AI潮后,各類開源LLM也陸續(xù)問世。緊接著,為了更好地模擬世界,研究人員又將純語言的大模型,擴(kuò)展到了處理語言之外的「多模態(tài)大語言模型」——諸如支持圖像類的MiniGPT-4、BLIP-2、Flamingo、InstructBLIP等,支持視頻類的Video-LLaMA, PandaGPT等,以及支持聲音類的SpeechGPT等等。然而目前的多模態(tài)LLM,距離真正人類級別的AGI,總感覺少了點(diǎn)「那味兒」。「大一統(tǒng)」通用多模態(tài)大模型來了
正當(dāng)大家都在期待OpenAI未來要發(fā)布的GPT-5是否實(shí)現(xiàn)了任意模態(tài)大一統(tǒng)功能時,來自于新加坡國立大學(xué)NExT++實(shí)驗(yàn)室的華人團(tuán)隊(duì)出手了!就在最近,團(tuán)隊(duì)正式開源了一款「大一統(tǒng)」通用多模態(tài)大模型——NExT-GPT,可以支持任意模態(tài)輸入到任意模態(tài)輸出。目前,NExT-GPT的代碼已經(jīng)開源,并且還上線了Demo系統(tǒng)。項(xiàng)目地址:https://next-gpt.github.io
代碼地址:https://github.com/NExT-GPT/NExT-GPT
論文地址:https://arxiv.org/abs/2309.05519NExT-GPT一經(jīng)發(fā)布,便受到了AI社區(qū)的大量關(guān)注。有網(wǎng)友表示,NExT-GPT標(biāo)識著全能型LLM的到來:也有網(wǎng)友贊嘆,這才是未來的LLM大趨勢(大一統(tǒng)任意模態(tài)輸入輸出的LLM):據(jù)作者自述,實(shí)驗(yàn)室在多模態(tài)學(xué)習(xí)方向的研究有著多年的耕耘,具有深厚的積累。而NExT-GPT的取名也雙關(guān)了實(shí)驗(yàn)室的名字以及GPT of Next generation的寓意。接下來,咱就來看看NExT-GPT到底可以實(shí)現(xiàn)哪些功能!- 文本 + 圖像 → 文本 + 圖像 + 視頻 + 圖像可看到,NExT-GPT能夠準(zhǔn)確理解用戶所輸入的各類組合模態(tài)下的內(nèi)容,并準(zhǔn)確靈活地返回用戶所要求的甚至隱含的多模態(tài)內(nèi)容,從而輸出圖像、視頻以及聲音。其中,常見的圖生文、圖生視頻、看圖像/聲音/視頻說話、圖像/聲音/視頻問答等問題統(tǒng)統(tǒng)不在話下,統(tǒng)一了跨模態(tài)領(lǐng)域的大部分常見任務(wù),做到了真正意義上的任意到任意模態(tài)的通用理解能力。此外,作者還給出一些定量的實(shí)驗(yàn)結(jié)果驗(yàn)證,感興趣的同學(xué)可以在論文中閱讀詳細(xì)內(nèi)容。眾所周知,人類的認(rèn)知和溝通必須無縫地在任何信息模態(tài)之間進(jìn)行轉(zhuǎn)換——我們不僅僅可以理解多模態(tài)內(nèi)容,還能夠以多模態(tài)的方式靈活輸出信息。但現(xiàn)有的大語言模型,一方面是局限于某種單一模態(tài)信息的處理,而缺乏真正「任意模態(tài)」的理解;另一方面是只關(guān)注于多模態(tài)內(nèi)容在輸入端的理解,而不能以任意多種模態(tài)的靈活形式輸出內(nèi)容。那么,NExT-GPT又是如何實(shí)現(xiàn)任意模態(tài)輸入到任意模態(tài)輸出的呢?原理其實(shí)非常簡單,作者甚至表示在技術(shù)層面上「沒有顯著的創(chuàng)新點(diǎn)」——通過有機(jī)連接現(xiàn)有的開源1)LLM,2)多模態(tài)編碼器和3)各種模態(tài)擴(kuò)散解碼器,便構(gòu)成了NExT-GPT的整體框架,實(shí)現(xiàn)任意模態(tài)的輸入和輸出,可謂大道至簡。整體來說,模型呈現(xiàn)為一個「編碼端-推理中樞-解碼器」三層架構(gòu):利用已開源的編碼器對各種輸入模態(tài)進(jìn)行編碼,然后通過一個投影層將這些特征投影為LLM所能夠理解的「類似語言的」表征。中文作者采用了MetaAI的ImageBind統(tǒng)一多模態(tài)編碼器。利用開源LLM作為核心大腦來處理輸入信息,進(jìn)行語義理解和推理。LLM可以直接輸出文本,同時其還將輸出一種「模態(tài)信號」token,作為傳遞給后層解碼端的指令,通知他們是否輸出相應(yīng)的模態(tài)信息,以及輸出什么內(nèi)容。作者目前采用了Vicuna作為其LLM。利用各類開源的圖像擴(kuò)散模型、聲音擴(kuò)散模型以及視頻擴(kuò)散模型,接收來自LLM的特定指令信號,并輸出所對應(yīng)的模型內(nèi)容(如果需要生成的指令)。在推理時,給定任意組合模態(tài)的用戶輸入,通過模態(tài)編碼器編碼后,投影器會將其轉(zhuǎn)換為特征傳遞給LLM(文本部分的輸入將會直接出入到LLM)。然后LLM將決定所生成內(nèi)容,一方面直接輸出文本,另一方面輸出模態(tài)信號token。如果LLM確定要生成某種模態(tài)內(nèi)容(除語言外),則會輸出對應(yīng)的模態(tài)信號token,表示該模態(tài)被激活。文中作者指出,NExT-GPT可能并不是實(shí)現(xiàn)任意模態(tài)輸入到任意模態(tài)輸出功能的首個工作。目前有兩類前驅(qū)工作:- 一類是不久前所發(fā)布的CoDi模型,其整合了各種模態(tài)的diffusion模型,可以同時處理和生成各種組合的模態(tài)內(nèi)容。然而作者指出,CoDi由于缺乏LLMs作為其核心部件,其僅限于成對(Parallel)內(nèi)容的輸入和生成,而無法實(shí)現(xiàn)復(fù)雜的內(nèi)容推理和決策,根據(jù)用戶輸入的指令靈活相應(yīng)。- 另一類工作則試圖將LLMs與現(xiàn)有的外部工具結(jié)合,以實(shí)現(xiàn)近似的「任意多模態(tài)」理解和生成,代表性的系統(tǒng)如Visual-ChatGPT和HuggingGPT。但作者指出,由于這類系統(tǒng)在不同模塊之間的信息傳遞完全依賴于LLM所生成的文本,其割裂、級聯(lián)的架構(gòu)容易不可避免地引入了噪音,降低不同模塊之間的特征信息傳遞效用。并且其僅利用現(xiàn)有外部工作進(jìn)行預(yù)測,缺乏一種整體的端到端訓(xùn)練,這對于充分理解用戶的輸入內(nèi)容和指令是不利的。相比之下,NExT-GPT卻良好地解決了上述的現(xiàn)有工作的問題——既保證具有較好的學(xué)習(xí)成效,又全面降低、控制學(xué)習(xí)成本。關(guān)鍵技術(shù)
- 關(guān)鍵點(diǎn) 1:低成本實(shí)現(xiàn)復(fù)雜推理+多模態(tài)in和多模態(tài)out如前文所述,不僅要繼承LLM所具備的復(fù)雜內(nèi)容理解和推理能力,還需要實(shí)現(xiàn)任意模態(tài)的輸入和輸出。若考慮從零開始構(gòu)建整個系統(tǒng),代價(jià)將會巨大(除非是大廠才能承擔(dān)成本),也不利于開源和傳播??紤]到現(xiàn)有的大模型已經(jīng)基本實(shí)現(xiàn)了多模態(tài)的輸入,為實(shí)現(xiàn)全能的大一統(tǒng)多模態(tài)能力,因此最關(guān)鍵的一點(diǎn)在于高性能的多模態(tài)輸出。為此,NExT-GPT完全基于現(xiàn)有開源的高性能模塊(比如目前性能最強(qiáng)的擴(kuò)散模型),充分站在巨人的肩膀上,以最低的成本實(shí)現(xiàn)大一統(tǒng)多模態(tài)大模型的構(gòu)建目標(biāo)(實(shí)驗(yàn)室可承擔(dān)級別的成本)。- 關(guān)鍵點(diǎn) 2:高效率端到端訓(xùn)練和模態(tài)對齊學(xué)習(xí)妥當(dāng)?shù)?、端到端的系統(tǒng)訓(xùn)練是NExT-GPT區(qū)別于現(xiàn)有其他組合型統(tǒng)一大模型系統(tǒng)最重要的一點(diǎn),也是保證NExT-GPT具有優(yōu)秀性能的前提。另一方面,還需要充分對齊系統(tǒng)中的所有模態(tài)的特征表征。研究亮點(diǎn)
首先,NExT-GPT考慮分別在編碼層-LLM之間以及LLM-解碼層之間插入投影層(Projection Layers)。在凍結(jié)大規(guī)模參數(shù)的基座「編碼層-LLM-解碼層」情況下,僅去訓(xùn)練參數(shù)量極低的投影層部分(以及在指令微調(diào)時基于LoRA的LLM低代價(jià)更新),作者實(shí)現(xiàn)了僅僅1%參數(shù)量的訓(xùn)練代價(jià)。具體通過1)以LLM為中心的編碼端多模態(tài)對齊學(xué)習(xí),和2)局部微調(diào)的解碼端指令跟隨增強(qiáng)學(xué)習(xí)實(shí)現(xiàn)。另外,對于多模態(tài)大模型,為確保其能夠充分忠于用戶指令而響應(yīng),進(jìn)一步的指令調(diào)整(IT)是非常有必要的。不同于現(xiàn)有的多模態(tài)大模型其輸出端僅涉及到文本,NExT-GPT系統(tǒng)的輸入和輸出端同時覆蓋了各類模態(tài)信息。為此,作者提出了一種模態(tài)切換指令微調(diào)學(xué)習(xí)(Modality-switching Instruction Tuning,MosIT),技術(shù)內(nèi)涵如下圖所示。同時,由于現(xiàn)存的多模態(tài)指令微調(diào)數(shù)據(jù)集都無法滿足任意多模態(tài)LLM場景(即MosIT)的要求,作者構(gòu)建了一套MosIT數(shù)據(jù)集。該數(shù)據(jù)涵蓋了各種多模態(tài)輸入和輸出,提供了必要的復(fù)雜性和變異性,幫助提升NExT-GPT獲得優(yōu)越的多模態(tài)指令跟隨和相應(yīng)能力。基于NExT-GPT,后續(xù)的研究工作可以考慮以下幾個方面:1. 模態(tài)與任務(wù)擴(kuò)展:受限于現(xiàn)有資源,目前作者所開源的NExT-GPT系統(tǒng)僅支持四種模態(tài):語言、圖像、視頻和音頻。作者表示,后續(xù)會逐步擴(kuò)展到更多的模態(tài)(例如,網(wǎng)頁、3D視覺、熱圖、表格和圖表)和任務(wù)(例如,對象檢測、分割、定位和跟蹤),以擴(kuò)大系統(tǒng)的普遍適用性。目前作者實(shí)現(xiàn)了基于7B版本的 Vicuna LLM,其表示下一步將整合不同大小的LLM,以及其他LLM類型。目前版本的NExT-GPT系統(tǒng)僅考慮了基于擴(kuò)散模型的純輸出方式的多模態(tài)輸出。然而生成模式容易輸出錯誤幻想內(nèi)容(Hallucination),并且輸出內(nèi)容的質(zhì)量往往容易受到擴(kuò)散模型能力的限制。因此,進(jìn)一步提升擴(kuò)散模型的性能很關(guān)鍵,這能直接幫助提高多模態(tài)內(nèi)容的輸出質(zhì)量。另外,實(shí)際上可以整合基于檢索的方法來補(bǔ)充基于生成的過程的弊端,從而提升整體系統(tǒng)的輸出可靠性。NExT-GPT考慮了ImageBind來統(tǒng)一多種模態(tài)的編碼,從而節(jié)省了在編碼端的代價(jià)。而對于多模態(tài)輸出端,作者簡單地集成了多個不同模態(tài)的擴(kuò)散模型。在之后的研究中,可以考慮進(jìn)一步降低對更多模態(tài)的支持的成本。尤其是,如何防止隨著模態(tài)的增加而動態(tài)增加解碼器。比如,可以考慮將一些支持不同模態(tài)生成(但具有模態(tài)共性)的擴(kuò)散模型進(jìn)行復(fù)用。5. MosIT數(shù)據(jù)集擴(kuò)展:目前NExT-GPT所使用的MosIT數(shù)據(jù)集規(guī)模受限,這也會限制其與用戶的交互表現(xiàn)。后續(xù)研究可以進(jìn)一步提升模態(tài)切換指令微調(diào)學(xué)習(xí)策略以及數(shù)據(jù)集。總體上,NExT-GPT系統(tǒng)展示了構(gòu)建一個通用大一統(tǒng)多模態(tài)的AI模型的可能性,這將為AI社區(qū)中后續(xù)的更「人類水平」的人工智能研究提供寶貴的借鑒。https://github.com/NExT-GPT/NExT-GPT
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。