国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Code LLMs的自一致性問題




Code LLMs 代碼大語言模型,根據(jù)輸入和上下文生成代碼。然而,由于缺乏自一致性,這些模型可能會生成不符合編碼約定或模式的代碼片段。

這種不一致性使得生成的代碼難以理解和集成到現(xiàn)有的代碼庫中,降低了其實(shí)用性。

類似地,就好像是一幅由藝術(shù)家制作的拼貼畫。想象一位藝術(shù)家使用不同的圖像和材料來制作拼貼畫。然而,藝術(shù)家沒有在作品中保持一致的主題或風(fēng)格,而是隨機(jī)組合。結(jié)果,拼貼畫缺乏一個(gè)連貫的視覺敘事,對觀者來說顯得支離破碎和混亂。


IdentityChain一種評估代碼大型語言模型(Code LLMs)自一致性的方法



- 什么是自一致性?

研究發(fā)現(xiàn),目前的代碼大型語言模型(Code LLMs)在自一致性方面存在一些問題。自一致性是指模型生成的代碼能否和規(guī)范保持一致,自一致性的缺失會削弱模型的可信度。


- IdentityChain

本文提出了一種評估代碼大型語言模型(Code LLMs)自一致性的方法:IdentityChain。

IdentityChain不僅可以作為評估工具,還可以作為模型調(diào)試工具,幫助開發(fā)人員發(fā)現(xiàn)和改進(jìn)模型中的弱點(diǎn)。具體是怎么實(shí)現(xiàn)的?

從一個(gè)提示P開始,模型生成了一個(gè)程序代碼C,讓模型把將C總結(jié)成一個(gè)新的提示PN,并生成一個(gè)新的程序代碼CN。如果C與CN的輸出不匹配,則模型不是自一致的。


- TOM分?jǐn)?shù)

IdentityChain框架使用TOM分?jǐn)?shù)來衡量代碼的語義一致性,實(shí)驗(yàn)證明TOM分?jǐn)?shù)是一種有效的自一致性評估指標(biāo)。

TOM分?jǐn)?shù)是測試輸出匹配度分?jǐn)?shù)(Test Output Match score)的縮寫。它是一種衡量Code LLM生成的程序在執(zhí)行時(shí)輸出是否與期望輸出一致的指標(biāo)。TOM分?jǐn)?shù)為1表示所有的輸出都完全匹配,而分?jǐn)?shù)為0表示沒有匹配。

通過計(jì)算TOM分?jǐn)?shù),我們可以評估模型在自一致性方面的準(zhǔn)確性和可靠性。


# 一個(gè)簡單的例子,理解TOM和IdentityChain :

假設(shè)我們有一個(gè)Code LLM,我們將使用它來生成一個(gè)簡單的程序。我們給出以下的輸入和輸出示例:

輸入(nl0):Calculate the sum of two numbers. 輸出(pl0):num1 + num2 現(xiàn)在,我們將使用生成的程序(pl0)來生成一個(gè)新的描述(nl1):

輸入(pl0):num1 + num2 輸出(nl1):Write a function named sumNumbers that accepts two parameters num1 and num2, and returns their sum. 最后,我們使用生成的描述(nl1)來生成一個(gè)新的程序(pl1):

輸入(nl1):Write a function named sumNumbers that accepts two parameters num1 and num2, and returns their sum. 輸出(pl1):num1 + num2 如果我們發(fā)現(xiàn)pl1的測試輸出與pl0的測試輸出不匹配,則說明模型在自一致性方面存在問題。

請注意,這只是一個(gè)簡單的示例,實(shí)際應(yīng)用中的輸入和輸出可能更復(fù)雜。

https://arxiv.org/pdf/2310.14053.pdf


本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
擊敗LLaMA?史上最強(qiáng)「獵鷹」排行存疑,符堯7行代碼親測,LeCun轉(zhuǎn)贊
LLM對程序員的沖擊和影響
LLMs之InternLM:InternLM-20B的簡介、安裝、使用方法之詳細(xì)攻略
大模型幻覺問題專欄
手把手教你用Stata的Network包實(shí)現(xiàn)分類變量網(wǎng)狀Meta分析
中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn),大模型可通過自我驗(yàn)證提高推理性能
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服