浙江大學和微軟亞洲研究院的研究人員最近發(fā)表了一篇論文,探討使用大型語言模型(LLM)作為控制器來操縱 Hugging Face 等社區(qū)中已有的人工智能模型。 這項研究背后的核心思想是使用 LLM(如 ChatGPT)的高級語言理解和生成能力將不同領域現(xiàn)有的 AI 模型連接起來。 研究人員宣稱,他們的方法使解決語言、視覺、語音及其他領域的復雜人工智能任務成為可能。 為了在 ChatGPT 和 Hugging Face 模型之間建立連接,HuggingGPT 使用了 Hugging Face 庫中的模型描述,并將它們提供給 ChatGPT 提示符。 這個過程的第一個階段是 任務規(guī)劃:ChatGPT 分析用戶請求并將其分解為可以使用庫中模型解決的任務。第二個階段是 選擇最適合規(guī)劃任務的模型。下一個邏輯步驟是 執(zhí)行任務 并將結果返回給 ChatGPT。最后,ChatGPT 通過整合所有模型的預測來 生成響應。 在任務規(guī)劃階段,HuggingGPT 使用了任務規(guī)范(specifications)和示范(demonstrations)。一個任務規(guī)范包括 4 個槽,分別定義了ID、任務類型(如視頻、音頻等)、依賴關系(定義前置任務)和任務參數(shù)。示范將用戶請求與任務規(guī)范序列關聯(lián)在一起。例如,用戶請求“In image /exp2.jpg, what is the animal and what is it doing?”會與一個包含 4 項任務的序列相關聯(lián):圖像到文本、圖像分類、對象檢測以及最后的問題回答任務。 論文的 6 位作者表示,他們使用 HuggingGPT 進行了一系列實驗,包括簡單任務和涉及多個子任務的復雜任務。 根據其創(chuàng)建者的說法,HuggingGPT 還有一些局限性,包括:效率和延遲,這主要與每個階段都至少要和大型語言模型交互一次有關;上下文長度限制,這與 LLM 可以接受的最大詞元數(shù)有關;系統(tǒng)穩(wěn)定性可能因 LLM 偶爾不遵守指令而降低,也可能因為 LLM 控制的某個模型失敗而降低。 原文鏈接: https://www.infoq.com/news/2023/04/hugginggpt-complex-ai-tasks/