国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
系統(tǒng)學習大模型的20篇論文

【引子】“腳踏實地,仰望星空”, 知其然還要知其所以然。讀論文是一條重要的途徑,這一篇文章https://magazine.sebastianraschka.com/p/understanding-large-language-models非常值得借鑒,不敢私藏,編譯成文。

大型語言模型已經(jīng)成為公眾關(guān)注的焦點,這幾乎徹底改變了自然語言處理領(lǐng)域,甚至是在過去的五年中,大型語言模型中的transformer也已經(jīng)開始引領(lǐng)在計算機視覺和計算生物學領(lǐng)域中革命。

由于LLM和transformer對每個領(lǐng)域的研究影響巨大,如何進行系統(tǒng)性學習呢?當然,還有許多其他有用的資源,例如,

  • Jay Alammar的Illustrated Transformer;

  • Lilian Weng的更多技術(shù)博客文章;

  • Xavier Amatriain 所有關(guān)于transformer的文字;

  • Andrej Karpathy為教育目的而實現(xiàn)的生成語言模型的minimal code implementation;

  • ......

但是,研讀論文仍然是系統(tǒng)性學習的重要方式,了解來龍去脈,跟蹤最新發(fā)展。

1. 理解架構(gòu)和任務

從頭開始,對于transformer/大型語言模型來說,從哪里讀起呢?

(1) Neural Machine Translation by Jointly Learning to Align and Translate (2014) by Bahdanau, Cho, and Bengio, https://arxiv.org/abs/1409.0473

建議從上面的論文開始閱讀。它介紹了一種注意力機制,用于改進循環(huán)神經(jīng)網(wǎng)絡(RNN)的長序列建模能力。這使得RNN能夠更準確地翻譯更長的句子——這也是后來開發(fā)原始Transformer架構(gòu)的動機。

(2) Attention Is All You Need (2017) by Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, and Polosukhin, https://arxiv.org/abs/1706.03762

這一篇是引用最為廣泛的經(jīng)典論文,介紹了最初的Transformer架構(gòu),包括后來成為單獨模塊的編碼器和解碼器部分。此外,還介紹了縮放點積注意力機制、多頭注意力塊和位置輸入編碼等概念,這些概念仍然是現(xiàn)代Transformer的基礎。

(3) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) by Devlin, Chang, Lee, and Toutanova, https://arxiv.org/abs/1810.04805

沿用原始的Transformer架構(gòu),大型語言模型研究開始分為兩個方向:編碼器風格的Transformer用于預測建模任務,如文本分類,解碼器風格的Transformer用于生成建模任務,如翻譯,摘要和其他形式的文本創(chuàng)作。而這一篇介紹了BERT掩碼語言建模的原始概念,而下一個句子的預測仍然是一種有影響力的解碼器風格架構(gòu)。可以繼續(xù)關(guān)注RoBERTa,它通過刪除下一個句子的預測任務簡化了預訓練目標。

(4) Improving Language Understanding by Generative Pre-Training (2018) by Radford and Narasimhan, https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035

原始的GPT論文介紹了流行的解碼器架構(gòu)和通過下一個單詞預測進行預訓練。由于其以掩碼語言模型為預訓練目標,BERT可以被認為是一個雙向變壓器,而GPT是一個單向的自回歸模型。雖然GPT嵌入也可以用于分類,但GPT方法是當今最有影響力的LLM,也是ChatGPT的核心。

這兩篇論文GPT-2和GPT-3說明了LLM能夠進行zero-shot和few-shot樣本學習,并突出了LLM的涌現(xiàn)能力。GPT-3是當LLM(如ChatGPT)訓練的流行基線和基礎模型。

(5) BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (2019), by Lewis, Liu, Goyal, Ghazvininejad, Mohamed, Levy, Stoyanov, and Zettlemoyer, https://arxiv.org/abs/1910.13461.

如前所述,BERT類型的編碼器LLM通常用于預測建模任務,而GPT類型的解碼器LLM則更適合生成文本。為了兼顧兩者優(yōu)點,上面的BART論文結(jié)合了編碼器和解碼器部分(與本列表中的第二篇論文類似,就像原始的Transformer一樣)。

(6) Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (2023) by Yang, Jin, Tang, Han, Feng, Jiang, Yin, and Hu, https://arxiv.org/abs/2304.13712

這可能是迄今為止最好的一篇通用架構(gòu)調(diào)查,闡明了不同架構(gòu)是如何演變的。然而,除了討論BERT風格的掩碼語言模型(編碼器)和GPT風格的自回歸語言模型(解碼器)之外,它還提供了有關(guān)預訓練和微調(diào)數(shù)據(jù)的有用討論和指導。

2. 縮放方式與效率提升

如何進一步提高Transformer效率呢?2020 Efficient Transformers: A Survey 論文,接著是2023年的2023 A Survey on Efficient Training of Transformers論文,這兩篇文章可以提供幫助。此外,下面的論文也非常值得一讀。

(7) FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022), by Dao, Fu, Ermon, Rudra, and Ré, https://arxiv.org/abs/2205.14135.

雖然大多數(shù)transformer論文都不會考慮替換實現(xiàn)自注意力的原始縮放點積機制,但FlashAttention則描繪這樣一種機制。

(8) Cramming: Training a Language Model on a Single GPU in One Day (2022) by Geiping and Goldstein, https://arxiv.org/abs/2212.14034.

在這篇論文中,使用掩碼語言模型/編碼器風格的LLM(這里是BERT)在單個GPU上進行了24小時的訓練。相比之下,2018年的BERT論文使用16個TPU進行了為期四天的訓練。有趣的是,較小的模型具有更高的吞吐量,較小的模型學習效率也更低。因此,較大的模型不需要更多的訓練時間才能達到特定的預測性能閾值。

(9) LoRA: Low-Rank Adaptation of Large Language Models (2021) by Hu, Shen, Wallis, Allen-Zhu, Li, L Wang, S Wang, and Chen, https://arxiv.org/abs/2106.09685.

在大型數(shù)據(jù)集上預訓練的大語言模型表現(xiàn)出了新興能力,并在各種任務中表現(xiàn)良好,包括語言翻譯、摘要、編碼和問答。然而,如果想要提高Transformer在特定領(lǐng)域數(shù)據(jù)和專業(yè)任務上的能力,值得進行微調(diào)。

LoRA是一種在參數(shù)效率方面進行大型語言模型微調(diào)時最有影響力的方法之一。雖然存在其他用于參數(shù)效率微調(diào)的方法,但是LoRA特別值得一提,因為它既是一種優(yōu)雅的方法,也是一種非常通用的方法,可以應用于其他類型的模型。

雖然預訓練模型的權(quán)重在預訓練任務上具有完整的秩,但LoRA的作者指出,當它們適應于新任務時,預訓練的大型語言模型具有低“內(nèi)在維度”。因此,LoRA背后的主要思想是將權(quán)重變化ΔW分解為更具有有效參數(shù)的低秩表示。

(10) Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning (2022) by Lialin, Deshpande, and Rumshisky, https://arxiv.org/abs/2303.15647.

預訓練在大規(guī)模數(shù)據(jù)集上的現(xiàn)代LLM中展示了新興的能力,并在各種任務(包括語言翻譯、摘要、編碼和問答)中表現(xiàn)良好。然而,如果提高transformer在特定領(lǐng)域數(shù)據(jù)和專業(yè)任務上的能力,需要對變形金剛進行微調(diào)。這篇論文回顧了40多篇有關(guān)參數(shù)高效的微調(diào)方法(包括流行的技術(shù),如前綴調(diào)整、適配器和低秩適應),以使微調(diào)計算實現(xiàn)高效率。

(11) Training Compute-Optimal Large Language Models (2022) by Hoffmann, Borgeaud, Mensch, Buchatskaya, Cai, Rutherford, de Las Casas, Hendricks, Welbl, Clark, Hennigan, Noland, Millican, van den Driessche, Damoc, Guy, Osindero, Simonyan, Elsen, Rae, Vinyals, and Sifre, https://arxiv.org/abs/2203.15556.

本文介紹了具有70億參數(shù)的Chinchilla模型,該模型在生成模型任務上優(yōu)于流行的具有1750億參數(shù)的GPT-3模型。然而,其主要觀點是LLM的“顯著未經(jīng)訓練”。

本文為大型語言模型訓練定義了線性縮放定律。例如,雖然Chinchilla只有GPT-3的一半大小,但它表現(xiàn)更好,因為它是在1.4萬億(而不僅僅是3000億)token上進行訓練的。換句話說,訓練token數(shù)量與模型大小同樣重要。

(12) Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (2023) by Biderman, Schoelkopf, Anthony, Bradley, O'Brien, Hallahan, Khan, Purohit, Prashanth, Raff, Skowron, Sutawika, and van der Wal, https://arxiv.org/abs/2304.01373

Pythia是一套開源LLM套件(70M到12B個參數(shù)),用于研究LLM在訓練過程中的演變。

其架構(gòu)類似于GPT-3,但包括一些改進,例如Flash Attention(類似于LLaMA)和Rotary Positional Embeddings(類似于PaLM)。Pythia是在The Pile dataset(825 Gb)上進行訓練的,共訓練了300 Btoken,在常規(guī)PILE上為約1個時期,在去重后的PILE上為約1.5個時期。

Pythia 研究的主要結(jié)論如下:

  1. 在重復數(shù)據(jù)上進行訓練(LLMs如何訓練,這意味著訓練超過一個 epoch)不會對性能造成影響。

  2. 訓練順序不會影響記憶。這很不幸,因為如果相反的情況是真的,可以通過重新排列訓練數(shù)據(jù)來減輕不良的逐字記憶問題。

  3. 預先訓練的詞頻會影響任務性能。例如,少量樣本的準確率往往對更頻繁出現(xiàn)的詞語更高。

  4. 增加批量大小可以將訓練時間減半,但不會影響收斂。

3.調(diào)整與對齊——引導LLM達到預期目標和收益

近年來,有許多大型語言模型可以生成逼真的文本(例如GPT-3和Chinchilla等),似乎已經(jīng)達到了常用預訓練范式的限制。

為了使語言模型更有用,減少錯誤信息和有害語言,可以設計了額外的訓練范式來微調(diào)預訓練基礎模型。

(13) Training Language Models to Follow Instructions with Human Feedback (2022) by Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, and Lowe, https://arxiv.org/abs/2203.02155.

在InstructGPT論文中,使用了一種人類反饋的強化學習機制(RLHF)。從預訓練的GPT-3基礎模型開始,并使用由人類生成的一提示-響應進行監(jiān)督學習進一步微調(diào)(步驟1)。接下來,要求人類對模型輸出進行排名以訓練獎勵模型(步驟2)。最后,使用獎勵模型通過近端策略優(yōu)化來更新預訓練和微調(diào)的GPT-3模型(步驟3)。

這篇論文也描述了ChatGPT背后思想,ChatGPT是InstructGPT的一個更大數(shù)據(jù)集微調(diào)的升級版。

Source: https://arxiv.org/abs/2203.02155

(14) Constitutional AI: Harmlessness from AI Feedback (2022) by Yuntao, Saurav, Sandipan, Amanda, Jackson, Jones, Chen, Anna, Mirhoseini, McKinnon, Chen, Olsson, Olah, Hernandez, Drain, Ganguli, Li, Tran-Johnson, Perez, Kerr, Mueller, Ladish, Landau, Ndousse, Lukosuite, Lovitt, Sellitto, Elhage, Schiefer, Mercado, DasSarma, Lasenby, Larson, Ringer, Johnston, Kravec, El Showk, Fort, Lanham, Telleen-Lawton, Conerly, Henighan, Hume, Bowman, Hatfield-Dodds, Mann, Amodei, Joseph, McCandlish, Brown, Kaplan, https://arxiv.org/abs/2212.08073.

在這篇論文中,將對齊思想推進了一步,提出了一種用于創(chuàng)建“無害”人工智能系統(tǒng)的訓練機制。研究人員提出了一種基于規(guī)則列表的自我訓練機制(這些規(guī)則由人類提供)。與上面提到的InstructGPT論文類似,所提出的方法采用強化學習方法。

(15) Self-Instruct: Aligning Language Model with Self Generated Instruction (2022) by Wang, Kordi, Mishra, Liu, Smith, Khashabi, and Hajishirzi, https://arxiv.org/abs/2212.10560

指令微調(diào)是從類似于GPT-3的預訓練基礎模型到更強大的LLM(例如ChatGPT)的方法。開源人工生成指令數(shù)據(jù)集(例如databricks-dolly-15k)可以幫助實現(xiàn)這一目標。但是如何擴大規(guī)模呢?一種方法是通過其自身的生成來引導LLM的訓練。

自我指導是一種(幾乎沒有標注的)方法,用于將預訓練的LLM與指令對齊。

這是怎么工作的?簡而言之,它是一個4步驟的過程:

  1. 使用一組人工編寫的指令(在本例中為175個)和示例指令填充任務池。

  2. 使用預訓練的LLM(例如GPT-3)確定任務類別。

  3. 給定新指令,讓預訓練的LLM生成響應。

  4. 收集、修剪和過濾響應,然后將其添加到任務池中。

實踐表明,基于 ROUGE 分數(shù)的方法相對有效。

例如,一個自我指導微調(diào) LLM 的表現(xiàn)優(yōu)于 GPT-3 基礎 LLM(1),并且可以與預先訓練了大量人工編寫的指令集的 LLM 競爭(2)。同時,自我指導也可以為已經(jīng)在人類指令上進行了微調(diào)的 LLM帶來好處(3)。

當然,評估 LLM 的黃金標準是要詢問人類評估者的意見?;谌祟愒u估,自我指導的表現(xiàn)優(yōu)于基礎 LLM,以及在監(jiān)督方式下訓練的人工指令數(shù)據(jù)集的 LLM(SuperNI,T0 Trainer)。但有趣的是,Self-Instruct 并沒有超越通過人類反饋進行強化學習訓練的方法(RLHF)。

哪種方法更有前途,是人類生成的指令數(shù)據(jù)集還是自我指導的數(shù)據(jù)集?可能兩者都有前途。為什么不從一個人類生成的指令數(shù)據(jù)集(如來自 databricks-dolly-15k 的 15k 指令)開始,然后再使用自我指導進行擴展呢?

4. 補充: 人類反饋的增強學習(RLHF)

雖然強化學習與人類反饋(RLHF)可能無法完全解決當前LLM的問題,但它目前被認為是最好的選擇,可能會看到更多創(chuàng)造性的方法將RLHF應用于LLM的其他領(lǐng)域。

上述兩篇論文,“InstructGPT”和“Constitutional AI”都使用了RLHF。由于RLHF將成為一種有影響力的方法,因此本節(jié)還包括了其他論文資源。

(16) Asynchronous Methods for Deep Reinforcement Learning (2016) by Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu (https://arxiv.org/abs/1602.01783) 

本文介紹了一種梯度方法,可以作為深度學習和強化學習中 Q-learning 的替代方法。

(17) Proximal Policy Optimization Algorithms (2017) by Schulman, Wolski, Dhariwal, Radford, Klimov (https://arxiv.org/abs/1707.06347) 

本文介紹了一種改進的近端策略優(yōu)化增強學習算法,比上述基本策略優(yōu)化算法更具數(shù)據(jù)效率和可伸縮性。

(18) Fine-Tuning Language Models from Human Preferences (2020) by Ziegler, Stiennon, Wu, Brown, Radford, Amodei, Christiano, Irving (https://arxiv.org/abs/1909.08593) 

本文將PPO和獎勵學習的概念應用于預訓練語言模型,包括KL正則化,以防止策略偏離自然語言。

(19) Learning to Summarize from Human Feedback (2022) by Stiennon, Ouyang, Wu, Ziegler, Lowe, Voss, Radford, Amodei, Christiano https://arxiv.org/abs/2009.01325 

本文介紹了流行的RLHF三個步驟:

  1. 預訓練GPT-3

  2. 有監(jiān)督地微調(diào)它,

  3. 以有監(jiān)督的方式訓練獎勵模型。然后使用近端策略優(yōu)化器使用此獎勵模型對微調(diào)模型進行訓練。

本文還表明,使用近端策略優(yōu)化的強化學習比僅使用常規(guī)有監(jiān)督學習得到更好的模型。

(20) Training Language Models to Follow Instructions with Human Feedback (2022) by Ouyang, Wu, Jiang, Almeida, Wainwright, Mishkin, Zhang, Agarwal, Slama, Ray, Schulman, Hilton, Kelton, Miller, Simens, Askell, Welinder, Christiano, Leike, and Lowe (https://arxiv.org/abs/2203.02155), also known as InstructGPT paper)

RLHF 使用與上述類似的三步驟過程,但不是總結(jié)文本,而是基于人類指令生成文本。此外,還使用一個標簽器將輸出從最佳到最差進行排名,而不僅僅是人工和 AI 生成文本之間的比較。

5. 結(jié)論與擴展閱讀

大模型的研究日新月異,這里重點關(guān)注大語言模型的設計、約束和演變,包括前10篇論文(以及3篇關(guān)于RLHF的論文)。我們可以跟隨上述論文中的參考文獻進行更深入的學習。當然,還有很多其他的資源,例如:

Open-source alternatives to GPT

  • BLOOM: A 176B-Parameter Open-Access Multilingual Language Model (2022), https://arxiv.org/abs/2211.05100

  • OPT: Open Pre-trained Transformer Language Models (2022), https://arxiv.org/abs/2205.01068

  • UL2: Unifying Language Learning Paradigms (2022), https://arxiv.org/abs/2205.05131

ChatGPT alternatives

  • LaMDA: Language Models for Dialog Applications (2022), https://arxiv.org/abs/2201.08239

  • (Bloomz) Crosslingual Generalization through Multitask Finetuning (2022), https://arxiv.org/abs/2211.01786

  • (Sparrow) Improving Alignment of Dialogue Agents via Targeted Human Judgements (2022), https://arxiv.org/abs/2209.14375

  • BlenderBot 3: A Deployed Conversational Agent that Continually Learns to Responsibly Engage, https://arxiv.org/abs/2208.03188

Large language models in computational biology

  • ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Deep Learning and High Performance Computing (2021), https://arxiv.org/abs/2007.06225

  • Highly Accurate Protein Structure Prediction with AlphaFold (2021), https://www.nature.com/articles/s41586-021-03819-2

  • Large Language Models Generate Functional Protein Sequences Across Diverse Families (2023), https://www.nature.com/articles/s41587-022-01618-2

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
a16z整理了AI大模型領(lǐng)域的經(jīng)典閱讀資料
一文解決所有「語言模型」疑問:能不能訓多個epoch?怎么微調(diào)效率高?需要多少條數(shù)據(jù)?
大型語言模型在生物技術(shù)和藥物研究中的應用
OpenAI早就不卷大模型,開始卷AI Agents了?這是一篇來自OpenAI應用研究主管關(guān)于Agent的萬字長文
超詳超硬Jeff Dean萬字總結(jié)火熱出爐!圖解谷歌2022年AIGC、LLM、CV三大領(lǐng)域成就
萬字長文:LLM - 大語言模型發(fā)展簡史
更多類似文章 >>
生活服務
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服