国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大模型時代下的 NLP 研究


作者 | 肖涵 責(zé)編 | 夏萌
出品 |Jina AI

作為自然語言處理(NLP)領(lǐng)域的頂級盛會,EMNLP 每年都成為全球研究者的關(guān)注焦點。2023 年的會議在新加坡舉行,聚集了數(shù)千名來自世界各地的專家學(xué)者,也是自疫情解禁以來,中國學(xué)者參會最多的一次。巧的是,EMNLP 似乎總在召開時迎來業(yè)界大新聞。去年此時,ChatGPT 的發(fā)布引發(fā)學(xué)術(shù)大地震,顛覆了傳統(tǒng) NLP 的研究格局;今年,新興的 Gemini 模型又在會議上引發(fā)熱議,讓好不容易挺過來的 NLPer 直搖頭,還讓不讓人好好開會了!

無可否認(rèn),大模型的降維打擊,使得傳統(tǒng) NLP 方法逐漸退場,也帶來了行業(yè)中長期存在問題和挑戰(zhàn)的深入反思。在大模型時代,NLP 領(lǐng)域的研究方向和應(yīng)用場景正發(fā)生著根本性的變化。

在這篇文章里,Jina AI 創(chuàng)始人兼 CEO 肖涵博士和高級算法工程師 Michael,將帶你速覽本次 EMNLP 2023 新加坡大會。本文將從論文、海報和 BoF 會議等多個角度出發(fā),全面回顧本次大會的最新研究成果,并深入探討大型語言模型、向量技術(shù)、多模態(tài)大模型等熱門話題。

兩年一瞥:EMNLP 2022 與 2023 的變遷

2022 年,我有幸參加了阿布扎比的 EMNLP 會議。一年后,我來到了新加坡,參加了 EMNLP 2023。在這短短的一年里,我見證了自然語言處理(NLP)研究領(lǐng)域的重大變遷。

2022 年的 EMNLP 會議仍聚焦于 NLP 的傳統(tǒng)方法。研究者們探討了從 topic models到 n-gram 平滑再到貝葉斯方法的各種經(jīng)典技術(shù)。雖然那時的研究主題廣泛,但鮮有真正的創(chuàng)新突破。盡管當(dāng)時的會議氛圍因 ChatGPT 的發(fā)布而略顯悲觀和彷徨,但參會者們依舊積極探索和討論彼此的研究。

一年之后,情況發(fā)生了翻天覆地的變化。EMNLP 2023 的核心議題集中在大型語言模型(LLM)及其提示詞技術(shù)等,研究者們?nèi)鎿肀鹆诵纶厔荨2⑶掖舜挝覀冞€注意到了一個有趣的現(xiàn)象:AI 發(fā)展越來越快,導(dǎo)致許多六個月前的論文和研究成果,在會議召開時就已經(jīng)過時了,這也給 EMNLP 會議的 review 帶來了挑戰(zhàn),只有跟著 AI 的發(fā)展一起加速,才能更好地評估研究成果的價值。

這兩年的 NLP 領(lǐng)域經(jīng)歷了巨大變遷,每一屆 EMNLP 不僅是對過去的回顧,也是對未來的展望。隨著技術(shù)的不斷演化,我們期待 NLP 領(lǐng)域?qū)⒊尸F(xiàn)出更多令人振奮的新面貌。

EMNLP 2023 精選論文

在 EMNLP 2023 上,幾篇有趣的論文引起了我的注意,每篇論文都討論了 NLP 的不同方面,并突破了該領(lǐng)域可能的界限。以下是我對這些論文的筆記以及個人觀點。

混合倒排索引:加速密集檢索的強力工具

Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval

這篇論文討論了如何加速文本向量做信息檢索的問題。傳統(tǒng)的文本向量在信息檢索任務(wù)中應(yīng)用廣泛,但在計算查詢向量與每個文檔向量之間的相似性時,往往面臨速度慢、效率低的問題。為此,人們常用近似最近鄰搜索(ANN)技術(shù)來加速檢索,比如基于數(shù)據(jù)分布的矢量量化聚類算法。

混合搜索結(jié)合了向量搜索和傳統(tǒng) BM25 搜索技術(shù),但在現(xiàn)有實現(xiàn)中,兩者通常是獨立運行,只在最后合并結(jié)果。

這篇論文提出了一種新的聯(lián)合索引訓(xùn)練方法,包括簇選擇器和詞選擇器兩部分。簇選擇器將文本分配到相近的簇中,詞選擇器則找出最能代表文檔的詞。BM25 可以用這些詞將文檔放入對應(yīng)的桶中,考慮到 BM25 本身是非訓(xùn)練型算法,無法適應(yīng)訓(xùn)練數(shù)據(jù)。因此,論文提出了用 BERT 模型加 MLP 來訓(xùn)練詞選擇器,增強其靈活性。接著,使用 KL 散度損失函數(shù),以向量模型作為教師模型,把簇中心和 BERT 模型進(jìn)行聯(lián)合訓(xùn)練,學(xué)習(xí)相似性值的分布。實驗結(jié)果表明,這種方法能在相同的時間內(nèi)檢索到更多相關(guān)文檔,其性能與標(biāo)準(zhǔn) ANN 技術(shù)(如 HNSW 和 IVF-PQ)相當(dāng)。

論文亮點:

  • 混合索引結(jié)合了向量搜索和 BM25 的優(yōu)勢,效率和準(zhǔn)確性兼顧。

  • 用 BERT 模型作為可訓(xùn)練的詞選擇器,提高了檢索精度。

ChatGPT 擅長搜索嗎?把 LLM 成為 ReRanker Agents

Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents

這篇論文探討了如何利用大型語言模型 (LLM) 來改進(jìn)搜索結(jié)果的排序,也就是重排 (re-ranking)。傳統(tǒng)搜索引擎往往先檢索出一批相關(guān)文檔,然后通過重排算法挑選出最符合用戶查詢的文檔。常見的重排模型是經(jīng)過微調(diào)的 Transformer 模型,稱為交叉編碼器 (cross encoder)。它接收查詢和文檔對作為輸入,輸出一個相關(guān)性分?jǐn)?shù)。此外,像 LambdaMart 這樣的學(xué)習(xí)排序 (learning-to-rank) 模型也很受歡迎,尤其是在排序不僅僅只依賴于語義相關(guān)性的時候。

看到 LLMs 強大的語言處理能力后,作者們想知道像 GPT4 這樣的模型能不能更好地進(jìn)行文檔重排。但封閉的 API 通常不提供概率輸出,限制了其應(yīng)用。因此,論文探索了只依靠提示詞和輸出文本進(jìn)行重排的技術(shù)。他們提出的方法是在提示詞中插入帶有 ID 的文檔,并指示 LLM 按文檔的相關(guān)性輸出一個 ID 序列。當(dāng)文檔數(shù)量太多無法一次放入提示詞中時,就使用滑動窗口的方法,先對第一階段檢索器返回的得分最低的文檔進(jìn)行重排,然后根據(jù)輸出結(jié)果將最相關(guān)的文檔與下一窗口的檢索候選一起呈現(xiàn)給 LLM,以此類推。

考慮到 GPT-4 的成本和速度限制,作者們提出了將它的重排能力蒸餾到更小更快的 Transformer 模型中。結(jié)果表明,即使是參數(shù)量少得多的蒸餾模型 (4.4 億參數(shù)) ,效果也能勝過現(xiàn)有的許多大型重排模型。

關(guān)鍵點分析:

  • 用滑動窗口處理了海量文檔的重排問題。

  • 模型蒸餾使 LLM 的重排能力在實際應(yīng)用中可用。

LLM 靠自己就能變強

Large Language Models Can Self-Improve

大型語言模型 (LLM) 雖然能在零樣本設(shè)定下出色完成一些任務(wù),但令其表現(xiàn)在特定領(lǐng)域要更進(jìn)一步往往需要大量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)。這篇論文的核心思想是讓 LLM 自己生成訓(xùn)練數(shù)據(jù)。論文主要步驟如下:
  1. 數(shù)據(jù)集準(zhǔn)備使用一個只包含問題,沒有答案的數(shù)據(jù)集。

  2. 思維鏈 (CoT) 生成:通過 CoT 方法,在提問時設(shè)定 temperature,讓 LLM 產(chǎn)生多個包含不同推理路徑和答案的候選方案。

  3. 答案篩選:統(tǒng)計每個答案出現(xiàn)的頻率,選擇頻率最高的答案,提高其正確率。

  4. 置信度評估: LLM 通過分析答案的一致性來評估其置信度。高一致性的答案更有可能正確。

  5. 構(gòu)建訓(xùn)練數(shù)據(jù): 將高頻答案及其對應(yīng)的推理路徑轉(zhuǎn)化為新的提示詞,并以不同風(fēng)格呈現(xiàn),比如直接展示問題、或者加入引導(dǎo)性提示詞 (“請你逐步思考”)。

  6. 模型精調(diào): 使用增強后的訓(xùn)練數(shù)據(jù)集對 LLM 進(jìn)行針對特定任務(wù)的微調(diào)。

論文的評估結(jié)果表明,這種方法不僅能用少量數(shù)據(jù)有效地精調(diào) LLM,而且能很好地泛化到新任務(wù)上,提升模型在未知領(lǐng)域的表現(xiàn)。

關(guān)鍵亮點:

  • LLM 自我生成訓(xùn)練數(shù)據(jù),減少對外部數(shù)據(jù)的依賴。
  • “多角度思考” 和 “一致性評估” 提升答案可靠性。
  • 多種格式的訓(xùn)練數(shù)據(jù),讓 LLM 適應(yīng)性更強。

壓縮文檔,解鎖 LLM 更長上下文

Adapting Language Models to Compress Contexts

這篇論文聚焦于解決一個困擾語言模型的難題:上下文長度限制。雖然像 AliBi 這樣的技術(shù)可以構(gòu)建處理更長上下文的模型,但對于現(xiàn)有的、上下文長度受限的模型來說無能為力。

這篇論文提出了一種巧妙的解決方案:精調(diào)已有模型,使其適應(yīng)長上下文。具體操作如下:

  1. 擴展詞匯表: 在模型已有的詞匯表里增加“摘要標(biāo)記”,幫助模型將大量信息壓縮成更小的向量。

  2. 切割文本: 把要處理的長文本切成小段,每段都加上摘要標(biāo)記,這些標(biāo)記帶有之前文本段落的壓縮信息。

  3. 精調(diào)訓(xùn)練: 用“下一個詞預(yù)測”任務(wù)來微調(diào)模型,模型需要利用之前序列的摘要向量中的信息來預(yù)測下一個詞。

  4. 整體反向傳播: 在訓(xùn)練過程中,文本序列的長度會進(jìn)行動態(tài)變化,以讓模型適應(yīng)不同長度的文本。但反向傳播會針對整篇文檔進(jìn)行,讓模型學(xué)習(xí)整個上下文的關(guān)聯(lián)。

作者證明了該方法對不同規(guī)模的模型(如 OPT 和 7B-Llama-2 模型)都適用,還可以用于不同的任務(wù),比如處理更長提示詞的分類任務(wù),或者文本重新排序任務(wù)。

核心亮點:

  • 無需重新構(gòu)建模型,巧妙通過擴展詞匯表來適應(yīng)長上下文。

  • 使用 '摘要標(biāo)記' 和摘要向量來壓縮上下文信息。

EMNLP 2023 精選 Poster

在 EMNLP 2023 上,除了引人注目的論文演講之外, Poster 會議也充滿了一些充滿活力的討論和交流的中心。在這里分享一些讓我印象深刻的海報,它們每一張都像一個窗口一樣,讓我們瞥見自然語言處理 (NLP) 領(lǐng)域正在進(jìn)行的前沿研究與發(fā)展。

檢索增強模型真的可以推理嗎?

Can Retriever-Augmented Language Models Reason?

海報來自麥吉爾大學(xué)

檢索增強語言模型 (Retriever-Augmented Language Models, RALM) 是近年來 NLP 領(lǐng)域的一個重要發(fā)展方向,它通過將檢索器和語言模型結(jié)合起來,有望產(chǎn)生真實、高效且最新的語言理解系統(tǒng)。作者們研究了檢索增強語言模型 (RALM) 是否能真正有效地推理,重點在于平衡檢索模塊 (retriever) 和語言模型 (language model) 的能力。研究強調(diào)了檢索模塊在收集推理所需信息方面的潛在缺陷,以及即使提供必要信息,語言模型在推理方面也可能犯錯。這是一個深入探討改進(jìn)大型語言模型交互式組件的精彩研究。

基于對比學(xué)習(xí)的句子編碼器

Contrastive Learning-based Sentence Encoders

對比學(xué)習(xí)是一種機器學(xué)習(xí)技術(shù),通過讓模型區(qū)分正負(fù)樣本來學(xué)習(xí)特征。這篇論文來自東北大學(xué)的研究人員,他們提出了一種基于對比學(xué)習(xí)的句子編碼器。在訓(xùn)練過程中,模型會學(xué)習(xí)到哪些單詞在句子中更重要。這些重要單詞將會被賦予更高的權(quán)重,從而提高模型對句子的理解和處理能力。這種方法可以改進(jìn)句子編碼器對文本中關(guān)鍵元素的優(yōu)先級排序和處理方式,使其更加高效和有效。

研究 Transformer 向量的語義子空間

Investigating Semantic Subspaces of Transformer Sentence Embeddings

斯圖加特大學(xué)的研究團隊試圖探索 Transformer 如何理解句子的語義,以及其不同層在這一過程中扮演的角色。為此,他們使用了一種稱為線性結(jié)構(gòu)探測的技術(shù),揭示 Transformer 模型不同層對不同語義信息類型的貢獻(xiàn),從而幫助改進(jìn) Transformer 模型的結(jié)構(gòu),使其更好地利用訓(xùn)練數(shù)據(jù),從而提升模型的性能和可解釋性。

解鎖多模態(tài)語言模型的世界知識

Can Pre-trained Vision and Language Model Answer Visual Information-Seeking Questions?

來自佐治亞理工學(xué)院、谷歌研究院和 DeepMind 的研究人員展示了一個精彩的海報,他們提出了一種測試多模態(tài)大語言模型 (LLM) 世界知識的新方法,即通過視覺信息檢索問題。與傳統(tǒng)的語言問答任務(wù)不同,它要求模型不僅要理解文本,還要理解圖像,并將其結(jié)合起來推理和回答問題。這項研究從傳統(tǒng)的文本問答擴展到需要視覺理解的場景,進(jìn)一步探索了多模態(tài) LLM 的潛力。

拆還是不拆?復(fù)合詞在上下文向量空間中的分詞策略

To Split or Not to Split: Composing Compounds in Contextual Vector Spaces

斯圖加特大學(xué)的這篇研究探討了在上下文向量空間中處理德語復(fù)合詞時,拆分詞根和不拆分詞根這兩種方式的優(yōu)劣。德語復(fù)合詞由兩個或多個詞組成,通常以單個單詞的形式出現(xiàn),但傳統(tǒng)的分割方法并不總是遵循詞形或語義。研究者利用 BERT 模型及其變體,以及特定領(lǐng)域的歷史語料庫,設(shè)計了一系列基于掩碼語言模型和成分預(yù)測的評估方法。研究發(fā)現(xiàn),將復(fù)合詞預(yù)先拆分成語素能夠帶來最穩(wěn)定的性能提升。

在語言模型學(xué)習(xí)過程中,信息如何流動

Subspace Chronicles: How Linguistic Information Emerges, Shifts, and Interacts during Language Model Training

這篇學(xué)術(shù)論文探討了在語言模型的訓(xùn)練過程中,語言信息的奇妙旅程,它如何從無到有,不斷演變,互相交流。研究人員探索了 9 種涵蓋句法、語義和推理的 NLP 任務(wù),在 200 萬預(yù)訓(xùn)練步驟和 5 個隨機種子下,分析不同類型語言信息如何出現(xiàn)和相互作用。

1、信息的流動和轉(zhuǎn)變貫穿整個訓(xùn)練過程,可劃分為三個關(guān)鍵學(xué)習(xí)階段:

  • 速涌現(xiàn)期 (0.5% 訓(xùn)練進(jìn)度) :各子空間快速形成,詞法和句法知識迅速習(xí)得。

  • 知識拓展期: 任務(wù)性能的提升主要源于大量開放域知識的獲取。

  • 業(yè)深化期: 語義和推理任務(wù)受益于更高級的上下文關(guān)聯(lián)和更精細(xì)的專業(yè)化。

2、語言相關(guān)的任務(wù)在整個訓(xùn)練過程中共享信息,但在快速涌現(xiàn)期的互動最為密切。

“心智理論” 助攻多 Agent 協(xié)作

Theory of Mind for Multi-Agent Collaboration via Large Language Models

這張學(xué)術(shù)海報聚焦于大型語言模型(LLM)的“心智理論”研究,探索其在多智能體協(xié)作任務(wù)中的應(yīng)用潛力。過去 LLM 在多智能體協(xié)作領(lǐng)域的表現(xiàn)仍未得到充分探索。該研究使用基于 LLM 的智能體參與了一個多智能體協(xié)作的文本游戲力,并設(shè)置了特定的“心智理論”推理任務(wù),與多智能體強化學(xué)習(xí)(MARL)和基于規(guī)劃的方法進(jìn)行了對比分析。

此前,Jina AI 在 PromptPerfect.jina.ai 產(chǎn)品的多智能體沙盒模擬中,也在這一領(lǐng)域探索了多智能體系統(tǒng)在各種協(xié)作模式下的行為動態(tài)。目前,PromptPerfect 提供了一個創(chuàng)新的多智能體沙盒環(huán)境,允許用戶構(gòu)建并管理自己的虛擬西部世界。用戶可以自由創(chuàng)建智能體,每個角色均擁有獨特的背景故事、性格特征和內(nèi)在動機。用戶可以將這些 AI 智能體置于各種情境中,觀察他們在合作、競爭等不同情境下的互動模式。

EMNLP Embeddings 茶話會

在 2023 年 EMNLP 大會,Jina AI 舉辦了一場關(guān)于向量技術(shù)前沿探索的 'Birds of a Feather (BoF)' 會議,此次會議超過 80 位參與者,碰撞思想,話題前沿,精彩紛呈。

閃電演講和小組討論

會議伊始,來自 Huiqiang、Hassan、Hwiyeol、Mattia 和 Yang Chen 等研究人員的閃電演講拉開帷幕。每位演講者都從獨到的視角出發(fā),分享了他們在 NLP 向量領(lǐng)域的最新研究成果,點燃了現(xiàn)場討論的熱情,并自然過渡到深入的專家討論環(huán)節(jié)。

由 Sebastian Ruder、Nicola Cancedda、Chia Ying Lee、Michael Günther 和 Han Xiao 組成豪華專家組,深入探討了向量技術(shù)的前世今生,從向量技術(shù)的演變到向量技術(shù)與生成式 AI 和大語言模型的融合,以及未來的發(fā)展方向。

閃電演講和專家討論覆蓋了向量技術(shù)研究的各個方面,從基礎(chǔ)理論到實際應(yīng)用,從傳統(tǒng)方法到最新進(jìn)展,為向量技術(shù)提供了全景式的解讀。

小組討論的主要要點

  1. 關(guān)于向量的不同:不同領(lǐng)域的研究人員分享了他們對各種向量技術(shù)方面的經(jīng)驗,討論了他們觀察到的共同點和分歧,尤其強調(diào)了向量的行為會因設(shè)計和應(yīng)用場景的不同而產(chǎn)生微妙的差別,需要更細(xì)致的理解。

  2. AI 浪潮之下,向量依舊重要:2023 年大型語言模型廣受關(guān)注,研究人員們重申了向量的重要性。他們強調(diào),盡管有 LLM 大行其道,向量仍然在更細(xì)粒度的語言理解和處理方面發(fā)揮著至關(guān)重要的作用。

  3. 上下文長度之謎:Embedding vs LLM:一個有趣的觀察是 LLM 和向量模型之間上下文長度擴展的差異。小組成員們解釋了當(dāng)前限制向量模型中上下文窗口的技術(shù)和實踐限制。

  4. 跨越搜索與生成的鴻溝:針對“搜索是過度擬合的生成,生成是欠擬合的搜索”這一論點,小組成員分享了不同的觀點,引發(fā)了關(guān)于搜索功能和生成能力之間相互作用的激烈辯論。

  5. RAG 和 Agent 模型的未來:展望 EMNLP 2024,對話轉(zhuǎn)向檢索增強生成(RAG)和 Agent 模型的潛在挑戰(zhàn)和發(fā)展。小組成員暗示了他們對未來將向量集成到這些應(yīng)用程序中的愿景,并認(rèn)識到向量將繼續(xù)發(fā)揮的關(guān)鍵作用。

總結(jié)回顧

EMNLP 2023 圓滿落幕,社區(qū)對于突破 NLP 界限的熱情讓我深感振奮。特別是我們的 BoF 向量會議,精彩的互動和深刻的洞見,成為了我們在本次大會中最難忘的高光時刻。

摩拳擦掌,想要親身體驗向量的未來嗎?我們正在招募人才!我們致力于深入研究長上下文、多語言和多模態(tài)的向量模型。如果你準(zhǔn)備好迎接挑戰(zhàn),請查看 https://jobs.lever.co/jina-ai 的空缺職位,也許我們會在柏林、深圳或北京辦公室相見!

迫不及待地想看看我們將在 2024 年 EMNLP 大會上帶來哪些成果。在此之前,讓我們繼續(xù)保持創(chuàng)新,發(fā)問質(zhì)疑,讓對話永不停息!

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
視覺增強詞向量:我是詞向量,我開眼了!
京東AI研究院何曉冬:如何讓AI通過NLP技術(shù)理解人類?
干貨 | 詳述 Elasticsearch 向量檢索發(fā)展史
綜述:化學(xué)分子預(yù)訓(xùn)練模型的研究
跨模態(tài)推理技術(shù)在智能對話系統(tǒng)中的應(yīng)用
西交、清華等發(fā)布多模態(tài)大模型,有望成為「DALL·E 4」技術(shù)路線?和AI一起「白日作夢」
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服