作者:Junying Chen等
亮點(diǎn)直擊
首次利用可驗(yàn)證的醫(yī)學(xué)問題和醫(yī)學(xué)驗(yàn)證器在大語言模型(LLM)中推進(jìn)醫(yī)學(xué)復(fù)雜推理的工作。 針對可驗(yàn)證的醫(yī)學(xué)問題,提出了一種兩階段的訓(xùn)練方法,結(jié)合搜索策略構(gòu)建推理路徑進(jìn)行微調(diào),并通過驗(yàn)證器反饋的強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步增強(qiáng)。 使用該方法,開發(fā)了HuatuoGPT-o1,這是第一個具備復(fù)雜推理能力的醫(yī)學(xué)大語言模型。與開源的通用和醫(yī)學(xué)專用基線相比,HuatuoGPT-o1表現(xiàn)出色。 實(shí)驗(yàn)表明,復(fù)雜推理對于解決醫(yī)學(xué)問題是有效的,并且能夠從強(qiáng)化學(xué)習(xí)的增強(qiáng)中獲益。
醫(yī)學(xué)領(lǐng)域的推理能力尚未被充分探索,盡管其重要性與數(shù)學(xué)領(lǐng)域相似。醫(yī)學(xué)推理的驗(yàn)證比數(shù)學(xué)更具挑戰(zhàn)性,需要可靠的答案來滿足高標(biāo)準(zhǔn)的醫(yī)療保健需求。
提出了一種兩階段的訓(xùn)練方法:
受到數(shù)學(xué)問題的啟發(fā),這些問題通過最終結(jié)果驗(yàn)證了解決過程,我們旨在創(chuàng)建可驗(yàn)證的醫(yī)學(xué)問題,以便通過結(jié)果驗(yàn)證推理。這些可驗(yàn)證問題被描述為開放形式,并具有唯一且客觀的真實(shí)答案,如下圖1所示。
來源于醫(yī)學(xué)考試問題 為實(shí)現(xiàn)這一目標(biāo),利用了封閉集合的真實(shí)考試問題,主要有兩個原因:1)有大量的醫(yī)學(xué)考試題可用;2)這些考試題通常是客觀且準(zhǔn)確的。具體而言,從MedQA-USMLE和MedMcQA的訓(xùn)練集中收集了192K道醫(yī)學(xué)多項(xiàng)選擇題。
轉(zhuǎn)化為可驗(yàn)證的醫(yī)學(xué)問題 然而,這些醫(yī)學(xué)問題是封閉集合的,這意味著它們提供的選項(xiàng)有限,使得模型可以在沒有適當(dāng)推理的情況下猜出正確答案。此外,由于某些問題可能缺乏用于驗(yàn)證的唯一正確答案或過于簡單以至于不需要推理,因此不適合。
為了解決這個問題,我們對問題進(jìn)行如下選擇和處理:
選擇具有挑戰(zhàn)性的問題:去除了三個小型LLM(Gemma2-9B、LLaMA-3.1-8B、Qwen2.5-7B)都能正確回答的問題,并丟棄了簡短的問題,以保留那些需要更深入推理的問題。
確保唯一答案:排除了要求選擇“錯誤選項(xiàng)”或具有多個正確答案的問題。進(jìn)一步使用LLM(GPT-4o)來移除那些正確答案可能不唯一或可能存在歧義的問題。
重新格式化為開放式正式問題:使用LLM(GPT-4o),我們將每個封閉集合問題重新格式化為開放式問題,即開放式問題和真實(shí)答案,如上圖1所示。
用于篩選和處理的提示可以在附錄B中找到。經(jīng)過這種篩選和處理,我們最終構(gòu)建了一個包含4萬道可驗(yàn)證醫(yī)學(xué)問題的數(shù)據(jù)集,記為 ,其中 是一個可驗(yàn)證的問題, 是真實(shí)答案。
開發(fā)醫(yī)學(xué)驗(yàn)證器 通過這些可驗(yàn)證的問題,提出了一種驗(yàn)證器來評估模型輸出的正確性。給定一個醫(yī)學(xué)可驗(yàn)證問題 ,模型生成一個思維鏈(Chain-of-Thought,CoT) 和一個結(jié)果 。驗(yàn)證器將 與真實(shí)答案 進(jìn)行對比,并提供二元反饋:
這種反饋對于建立正確的推理軌跡和提高推理性能至關(guān)重要。我們使用 GPT-4o 作為驗(yàn)證器。由于醫(yī)學(xué)領(lǐng)域中別名的普遍存在,數(shù)學(xué)中常用的精確匹配方法在這里并不實(shí)用。下文中的實(shí)驗(yàn)證實(shí)了這一點(diǎn),并展示了基于大語言模型的驗(yàn)證器的可靠性。
在本節(jié)中,介紹了一種訓(xùn)練大語言模型(LLM)進(jìn)行醫(yī)學(xué)復(fù)雜推理的方法,以識別錯誤并通過深度思考優(yōu)化答案。如上圖1所示,該方法分為兩個階段:階段一,掌握復(fù)雜推理;階段二,通過強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)復(fù)雜推理。
尋找正確的軌跡 給定一個可驗(yàn)證的醫(yī)學(xué)問題作為元組 ,即(問題,真實(shí)答案),LLM(例如,GPT-4o)生成一個初始的推理鏈 和答案 :
驗(yàn)證器檢查 是否與 匹配。如果不正確,模型通過在先前的思路 上應(yīng)用隨機(jī)選擇的搜索策略 來迭代地優(yōu)化答案,生成新的推理 和新的答案 :
其中 表示第 次迭代。定義了四種搜索策略 來指導(dǎo)優(yōu)化過程:
該過程迭代進(jìn)行,直到 被驗(yàn)證為正確。如果達(dá)到最大迭代次數(shù) ,則重新開始搜索。每個數(shù)據(jù)點(diǎn) 最多有 次嘗試;如果全部失敗,該數(shù)據(jù)點(diǎn)將被丟棄。
構(gòu)建 SFT 訓(xùn)練數(shù)據(jù) 當(dāng)找到一個成功的軌跡 時,它將被重新格式化為一個連貫的、自然語言的推理過程 (復(fù)雜推理鏈):
如下圖 3 所示,這種重新格式化避免了僵硬的結(jié)構(gòu),使用流暢的過渡(例如,“嗯”,“另外”,“等等”)來簡化推理并減少token的使用。然后,模型使用 的結(jié)論為問題 生成正式響應(yīng) :
監(jiān)督微調(diào) (SFT) 我們使用 GPT-4o 從可驗(yàn)證問題集 合成了 20K 個 SFT 數(shù)據(jù)點(diǎn) 。 用于微調(diào)大語言模型,以生成復(fù)雜的推理鏈 ,然后是正式的回答 。這種微調(diào)過程教會模型在回答之前進(jìn)行思考,鼓勵一種“搜索流”(Stream-of-Search, SoS)的方法,即模型在回答之前深入探索和完善其推理過程。
在這個階段,我們通過強(qiáng)化學(xué)習(xí)(RL)進(jìn)一步提升復(fù)雜推理能力。雖然在第一階段中,LLM學(xué)習(xí)到了成功的推理路徑,這些通過搜索得出的路徑可能并不最優(yōu)。第二階段的策略學(xué)習(xí)旨在優(yōu)化模型,以實(shí)現(xiàn)更好的復(fù)雜鏈?zhǔn)酵评恚–oT)。
強(qiáng)化學(xué)習(xí)中的獎勵 強(qiáng)化學(xué)習(xí)中的獎勵在指導(dǎo)強(qiáng)化學(xué)習(xí)訓(xùn)練目標(biāo)中起著至關(guān)重要的作用。對于一個可驗(yàn)證的問題 和生成的響應(yīng) ,獎勵被分配為:
根據(jù)[24, 25, 8],正確答案獲得1的獎勵,錯誤答案獲得0.1的獎勵,而缺乏思考后回答行為的響應(yīng)則獲得0的獎勵。此外,遵循相關(guān)工作,總獎勵將該函數(shù)分?jǐn)?shù)與學(xué)習(xí)到的RL策略 和初始策略 之間的Kullback-Leibler(KL)散度相結(jié)合,并乘以一個系數(shù) :
為了穩(wěn)定具有稀疏獎勵的訓(xùn)練。
在強(qiáng)化學(xué)習(xí)中,使用了帶有裁剪目標(biāo)的近端策略優(yōu)化(PPO)算法。微調(diào)后的模型作為策略模型 。訓(xùn)練在剩余的可驗(yàn)證醫(yī)療問題 上進(jìn)行。策略為輸入 采樣響應(yīng) ,計(jì)算獎勵,并更新參數(shù) 。兩個階段的完整訓(xùn)練過程在下面算法1中進(jìn)行了總結(jié)。
訓(xùn)練數(shù)據(jù) 構(gòu)建了一個包含 40K 醫(yī)療驗(yàn)證數(shù)據(jù)集 ,數(shù)據(jù)來源于 MedQA-USMLE 和 MedMCQA 的訓(xùn)練集。其中,20K 用于階段 1 的監(jiān)督微調(diào)(SFT),20K 用于階段 2 的強(qiáng)化學(xué)習(xí)(RL)。此外,從 中包含了 4K 未轉(zhuǎn)換的數(shù)據(jù)(帶選項(xiàng)答案的封閉式問題)以增強(qiáng)泛化能力。根據(jù)先前將通用領(lǐng)域數(shù)據(jù)整合以支持醫(yī)學(xué)適應(yīng)的工作,我們增加了 5K 從 MMLU-Pro 中獲取的通用驗(yàn)證問題,這些問題不在醫(yī)學(xué)相關(guān)軌道內(nèi)。所有數(shù)據(jù)都經(jīng)過嚴(yán)格篩選,以避免與評估數(shù)據(jù)的污染,使用的是 Med-PaLM2 的過濾方法(過濾掉 64 個連續(xù)字符的重疊)。
模型訓(xùn)練 使用所提出的方法,基于 LLaMA-3.1-8B-Instruct 和 LLaMA-3.1-70B-Instruct 分別訓(xùn)練我們的模型 HuatuoGPT-o1-8B 和 HuatuoGPT-o1-70B。在階段 1 中,模型在 DSFT 上進(jìn)行 3 個 epoch 的微調(diào),學(xué)習(xí)率為 5e-6,批量大小為 128。在階段 2 中,我們采用 PPO 進(jìn)行 RL,學(xué)習(xí)率為 5e-7,批量大小為 128, 設(shè)為 0.03。PPO 參數(shù)設(shè)置為:3 個 PPO epoch,折扣因子為 1.0,值系數(shù)為 1.0,截斷范圍為 0.2。
基線 將我們的模型與兩類大語言模型(LLM)進(jìn)行比較:1)通用 LLM:Qwen-2.5,LLaMA-3.1,Gemma 2,Yi,Mistral;2)醫(yī)學(xué)特定 LLM:UltraMedical,OpenBioLLM,和 BioMistral。
基準(zhǔn)測試 在標(biāo)準(zhǔn)醫(yī)學(xué)基準(zhǔn)上進(jìn)行評估:MedQA(USMLE 測試集),MedMCQA(驗(yàn)證集),和 PubMedQA(測試集)。此外,我們還評估了一些具有挑戰(zhàn)性的 LLM 基準(zhǔn)的醫(yī)學(xué)部分,包括 MMLU-Pro 的健康和生物學(xué)軌道,以及 GPQA 的遺傳學(xué)和分子生物學(xué)軌道。由于 GPQA 問題數(shù)量有限,進(jìn)行了 5 次評估并取平均結(jié)果。
主要結(jié)果 在醫(yī)療任務(wù)上評估了各種開源大語言模型(LLM),如下表 1 所示。結(jié)果表明,先前的醫(yī)學(xué)特定 LLM,如 UltraMedical,在傳統(tǒng)醫(yī)學(xué)基準(zhǔn)(MedQA、MedMCQA、PubMedQA)上表現(xiàn)出色,但在更新、更具挑戰(zhàn)性的數(shù)據(jù)集上表現(xiàn)不佳,即使問題與醫(yī)學(xué)相關(guān)。這可能表明 MMLU-Pro 和 GPQA 不僅需要醫(yī)學(xué)知識,還需要更強(qiáng)的推理能力。
HuatuoGPT-o1 在所有數(shù)據(jù)集上表現(xiàn)出色。8B 版本在整體評估中比基礎(chǔ)模型(LLaMA-3.1-8B-Instruct)高出 8 分。此外,我們的 70B 模型超越了其他可比的開源 LLM,包括專為高級推理能力開發(fā)的 QwQ-32B。這些結(jié)果證明了我們方法的有效性。此外,與僅進(jìn)行微調(diào)(不含 RL)相比,兩階段訓(xùn)練策略顯著提高了性能,受益于可驗(yàn)證的醫(yī)學(xué)問題。
消融研究 對 8B 模型進(jìn)行了消融研究,以分析 ComplexCoT 和 RL 的影響。結(jié)果如下表 2 所示,揭示了以下見解:
簡單的多項(xiàng)選擇訓(xùn)練無效:比較了僅在數(shù)據(jù)集 D 的原始醫(yī)學(xué)多項(xiàng)選擇題上訓(xùn)練的模型的性能。具體來說,使用多項(xiàng)選擇題作為輸入,并將正確選項(xiàng)作為輸出進(jìn)行微調(diào)。結(jié)果表明,僅在多項(xiàng)選擇題上訓(xùn)練(微調(diào)基線)相比基礎(chǔ)模型(LLaMA-3.1-8B-Instruct)幾乎沒有改善。這表明僅學(xué)習(xí)正確答案并不能提高解決問題的能力。
Complex CoTs 的有效性:進(jìn)一步研究了不同類型的鏈?zhǔn)剿季S(CoT)推理的影響。結(jié)果表明,直接學(xué)習(xí)響應(yīng)()表現(xiàn)最差,而簡單 CoT()僅提供了很小的好處。相比之下,Complex CoT()平均提高了 4.3 分。這證明了教會模型通過反思來完善答案的重要性。
Complex CoT 提升了 RL:我們比較了不同 CoT 策略下的 RL 增強(qiáng)效果,如表 3 所示。結(jié)果表明,涉及更長 CoT 的 Complex CoT(平均 712 個tokens)相比簡單 CoT(2.6 分)和無 CoT(1.1 分)帶來了顯著更大的收益(3.6 分),如表 3 詳細(xì)說明。這可能表明更長的自我推理路徑提供了更豐富的思維過程和反饋,使模型能夠發(fā)現(xiàn)更高獎勵的解決方案。
PPO 取得最佳性能:在使用相同獎勵函數(shù)的情況下,我們進(jìn)一步比較了不同的強(qiáng)化學(xué)習(xí)相關(guān)算法,包括偏好學(xué)習(xí)算法 DPO [38] 和 REINFORCE 風(fēng)格的算法 RLOO [39]。詳細(xì)的實(shí)現(xiàn)信息在附錄 F 中提供。比較 PPO、RLOO 和 DPO 后,我們發(fā)現(xiàn) PPO 表現(xiàn)最佳,其次是 RLOO 和 DPO。DPO 較弱的性能可能源于其離策略(off-policy)性質(zhì),而 PPO 盡管內(nèi)存消耗較高,但由于使用了價值模型而受益。
驗(yàn)證器的可靠性 驗(yàn)證器在路徑搜索和強(qiáng)化學(xué)習(xí)(RL)中起著至關(guān)重要的作用。在我們的方法中,GPT-4o作為驗(yàn)證器,用于評估模型結(jié)果與真實(shí)答案的匹配度。為了評估其可靠性,我們手動驗(yàn)證了從階段1和階段2中抽取的200個評分實(shí)例。如下圖4所示,GPT-4o在階段1的準(zhǔn)確率為96.5%,在階段2的準(zhǔn)確率為94.5%,展示了其可靠性。相比之下,使用正則表達(dá)式判斷正確答案是否存在于響應(yīng)中的精確匹配方法表現(xiàn)顯著較差,階段1的準(zhǔn)確率僅為70.5%,階段2為74.5%。這凸顯了基于大語言模型(LLM)的驗(yàn)證器的重要性。此外,基于LLaMA3.1-8B使用20,000個評分樣本微調(diào)了一個8B驗(yàn)證器。經(jīng)過微調(diào)的驗(yàn)證器也表現(xiàn)出可行性,準(zhǔn)確率超過90%。
領(lǐng)域兼容性 為了驗(yàn)證領(lǐng)域兼容性,將我們的方法額外應(yīng)用于中文醫(yī)學(xué)領(lǐng)域。從CMB考試訓(xùn)練集中構(gòu)建了一個包含40,000個可驗(yàn)證中文問題的數(shù)據(jù)集。然后,基于Qwen2.5-7B-Instruct,使用我們的兩階段方法訓(xùn)練了HuatuoGPT-o1-7B-zh。如下表4所示,HuatuoGPT-o1-7B-zh在相似規(guī)模的中文大語言模型中表現(xiàn)優(yōu)異,展示了該方法對新領(lǐng)域的適應(yīng)性。
這項(xiàng)研究提升了大語言模型(LLM)的醫(yī)學(xué)推理能力。首先,構(gòu)建了醫(yī)學(xué)可驗(yàn)證問題和一個醫(yī)學(xué)驗(yàn)證器。這使得能夠進(jìn)行兩個階段的訓(xùn)練過程:(1)學(xué)習(xí)復(fù)雜推理;(2)通過強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)推理能力。開發(fā)了HuatuoGPT-o1,這是一種具有“先思考后回答”行為的醫(yī)學(xué)LLM,在醫(yī)學(xué)基準(zhǔn)測試中表現(xiàn)出色。實(shí)驗(yàn)表明,復(fù)雜推理提高了醫(yī)學(xué)問題解決能力,并明顯受益于RL。在中文醫(yī)學(xué)背景下的額外驗(yàn)證顯示了該方法對其他領(lǐng)域的適應(yīng)性。相信我們的方法可以增強(qiáng)特定領(lǐng)域的推理能力,不僅限于數(shù)學(xué)。
[1] HuatuoGPT-o1, Towards Medical Complex Reasoningwith LLMs
如果您覺得這篇文章對你有幫助或啟發(fā),請不吝點(diǎn)贊、在看、轉(zhuǎn)發(fā),讓更多人受益。同時,歡迎給個星標(biāo)?,以便第一時間收到我的最新推送。每一個互動都是對我最大的鼓勵。讓我們攜手并進(jìn),共同探索未知,見證一個充滿希望和偉大的未來!
加入「AI生成未來社區(qū)」群聊,一起交流討論,涉及 圖像生成、視頻生成、3D生成、具身智能等多個不同方向,備注不同方向邀請入群!可添加小助手備注方向加群!