胖美女视频,曰本人色中国美女视频免费

Code LLMs的自一致性問題

2023.10.24 上海

Code LLMs 代碼大語言模型，根據(jù)輸入和上下文生成代碼。然而，由于缺乏自一致性，這些模型可能會生成不符合編碼約定或模式的代碼片段。

這種不一致性使得生成的代碼難以理解和集成到現(xiàn)有的代碼庫中，降低了其實(shí)用性。

類似地，就好像是一幅由藝術(shù)家制作的拼貼畫。想象一位藝術(shù)家使用不同的圖像和材料來制作拼貼畫。然而，藝術(shù)家沒有在作品中保持一致的主題或風(fēng)格，而是隨機(jī)組合。結(jié)果，拼貼畫缺乏一個(gè)連貫的視覺敘事，對觀者來說顯得支離破碎和混亂。

IdentityChain一種評估代碼大型語言模型（Code LLMs）自一致性的方法

- 什么是自一致性？

研究發(fā)現(xiàn)，目前的代碼大型語言模型（Code LLMs）在自一致性方面存在一些問題。自一致性是指模型生成的代碼能否和規(guī)范保持一致，自一致性的缺失會削弱模型的可信度。

- IdentityChain

本文提出了一種評估代碼大型語言模型（Code LLMs）自一致性的方法：IdentityChain。

IdentityChain不僅可以作為評估工具，還可以作為模型調(diào)試工具，幫助開發(fā)人員發(fā)現(xiàn)和改進(jìn)模型中的弱點(diǎn)。具體是怎么實(shí)現(xiàn)的？

從一個(gè)提示P開始，模型生成了一個(gè)程序代碼C，讓模型把將C總結(jié)成一個(gè)新的提示PN，并生成一個(gè)新的程序代碼CN。如果C與CN的輸出不匹配，則模型不是自一致的。

- TOM分?jǐn)?shù)

IdentityChain框架使用TOM分?jǐn)?shù)來衡量代碼的語義一致性，實(shí)驗(yàn)證明TOM分?jǐn)?shù)是一種有效的自一致性評估指標(biāo)。

TOM分?jǐn)?shù)是測試輸出匹配度分?jǐn)?shù)（Test Output Match score）的縮寫。它是一種衡量Code LLM生成的程序在執(zhí)行時(shí)輸出是否與期望輸出一致的指標(biāo)。TOM分?jǐn)?shù)為1表示所有的輸出都完全匹配，而分?jǐn)?shù)為0表示沒有匹配。

通過計(jì)算TOM分?jǐn)?shù)，我們可以評估模型在自一致性方面的準(zhǔn)確性和可靠性。

# 一個(gè)簡單的例子，理解TOM和IdentityChain ：

假設(shè)我們有一個(gè)Code LLM，我們將使用它來生成一個(gè)簡單的程序。我們給出以下的輸入和輸出示例：

輸入（nl0）：Calculate the sum of two numbers. 輸出（pl0）：num1 + num2 現(xiàn)在，我們將使用生成的程序（pl0）來生成一個(gè)新的描述（nl1）：

輸入（pl0）：num1 + num2 輸出（nl1）：Write a function named sumNumbers that accepts two parameters num1 and num2, and returns their sum. 最后，我們使用生成的描述（nl1）來生成一個(gè)新的程序（pl1）：

輸入（nl1）：Write a function named sumNumbers that accepts two parameters num1 and num2, and returns their sum. 輸出（pl1）：num1 + num2 如果我們發(fā)現(xiàn)pl1的測試輸出與pl0的測試輸出不匹配，則說明模型在自一致性方面存在問題。

請注意，這只是一個(gè)簡單的示例，實(shí)際應(yīng)用中的輸入和輸出可能更復(fù)雜。

https://arxiv.org/pdf/2310.14053.pdf

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

擊敗LLaMA？史上最強(qiáng)「獵鷹」排行存疑，符堯7行代碼親測，LeCun轉(zhuǎn)贊

LLM對程序員的沖擊和影響

LLMs之InternLM：InternLM-20B的簡介、安裝、使用方法之詳細(xì)攻略

大模型幻覺問題專欄

手把手教你用Stata的Network包實(shí)現(xiàn)分類變量網(wǎng)狀Meta分析

中科院 AI 團(tuán)隊(duì)最新研究發(fā)現(xiàn)，大模型可通過自我驗(yàn)證提高推理性能

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看