當(dāng)前位置：首頁 > 最新資訊 > 行業(yè)資訊

僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力，上交開源新對齊方法ReAlign

沃卡惠
行業(yè)資訊
2024-03-14 09:30:56
130

大模型對齊新方法，讓數(shù)學(xué)推理能力直接提升9%。

上海交通大學(xué)生成式人工智能實驗室（GAIR Lab）新成果ReAlign，現(xiàn)已開源。

隨著以ChatGPT為代表的語言大模型的快速發(fā)展，研究人員意識到訓(xùn)練數(shù)據(jù)的質(zhì)量才是大模型對齊的關(guān)鍵。

然而，目前主流的提示數(shù)據(jù)質(zhì)量的方法不是需要大量人工成本（人工構(gòu)造高質(zhì)量數(shù)據(jù)）就是容易遭受大模型幻覺的影響（從蒸餾數(shù)據(jù)中選擇高質(zhì)量樣本）。

ReAlign能以較小的人工成本提升現(xiàn)有數(shù)據(jù)集的質(zhì)量，進(jìn)而提升模型整體對齊能力，包含數(shù)學(xué)推理能力、回答問題的事實性、回答的可讀性。

目前，該項目開源了大量資源：

ReAlign代碼（使用方法和步驟均在Github中給出）

ReAlign后的數(shù)據(jù)集，Github倉庫中給出，同時包含huggingface版本。

46個不同任務(wù)場景對應(yīng)的任務(wù)描述以及人工構(gòu)造的回答格式。

用于對指令數(shù)據(jù)任務(wù)分類的分類器以及該分類器的訓(xùn)練數(shù)據(jù)。

用于事實性（Factuality）評估的NQ數(shù)據(jù)集及其ground truth。

用于可讀性（Readability）和事實性（Factuality）評估的prompt。

該方法有如下優(yōu)勢：

可以顯著提升數(shù)學(xué)推理能力：LLaMA-2-13B在GSM8K上的數(shù)學(xué)推理能力從46.77%提升到了56.63%。

同時具備顯著的OOD泛化能力：在MATH上訓(xùn)練，LLaMA-2-13B在GSM8K上從14.48%提升到了25.17%。

該方法與其他對齊技術(shù)（如SFT、DPO、指令數(shù)據(jù)構(gòu)造方法等）垂直，即可以在現(xiàn)有技術(shù)的基礎(chǔ)上去進(jìn)一步提升大模型性能。

該方法所得到的模型在回答問題時具備更易讀、組織格式更優(yōu)良、原因解釋更細(xì)致等優(yōu)點，可以顯著提升可讀性與數(shù)學(xué)推理能力。

該方法在針對知識密集型任務(wù)時采用了檢索增強(qiáng)技術(shù)，可以有效提升模型的事實性，減少了幻覺帶來的影響。

該文章也指出ReAlign的底層邏輯是重新協(xié)調(diào)人類與大模型在對齊過程中的角色，利用他們之間互補(bǔ)的優(yōu)勢，讓人類去明確指定自己的偏好，而大模型采用自己強(qiáng)大的生成能力去按照人類指定偏好重構(gòu)回答，并不會蒸餾大模型本身的知識（避免幻覺問題）。

示例

下圖示例1展示了ReAlign用于一個數(shù)學(xué)任務(wù)訓(xùn)練數(shù)據(jù)后的效果，可以看出ReAlign后的回答格式更加清晰易讀。

下圖示例2展示了采用原始數(shù)據(jù)集訓(xùn)練后的模型與采用ReAlign的數(shù)據(jù)集訓(xùn)練后的模型在回答問題上的差異，紅色字體高亮了原始回答較弱的部分，綠色字體高亮了ReAlign后的模型回答較強(qiáng)的部分。

方法

該方法流程示意圖如下：

該方法分為3個模塊：準(zhǔn)則定義、檢索增強(qiáng)、和格式重構(gòu)。

1、準(zhǔn)則定義

該預(yù)定義準(zhǔn)則包含任務(wù)和相應(yīng)的格式。

任務(wù)

該文章作者人工定義了46個任務(wù)，可以歸為10個大類，具體分類情況如下表所示：

同時，作者針對這46個任務(wù)訓(xùn)練了一個任務(wù)分類器。

格式

由于不同任務(wù)對于格式的需求是不一樣的，因此作者針對這46種任務(wù)精心設(shè)計了46個回答格式，包含組織結(jié)構(gòu)、章節(jié)內(nèi)容要求和輸出形態(tài)。這樣特定的格式相比通用格式更清晰易讀，下表示例為郵件生成任務(wù)的格式：

2、檢索增強(qiáng)

知識密集型任務(wù)如開放域問答和事實驗證任務(wù)，需要大量外部知識作為證據(jù)來確?；卮鸬氖聦嵭浴?/p>

因此作者選擇了5個知識密集型任務(wù)，針對這些任務(wù)的問題，先去調(diào)用谷歌搜索的API得到對應(yīng)證據(jù)，用于后續(xù)改寫。以下是一個檢索增強(qiáng)的示例，可以看出有了檢索增強(qiáng)后的ReAlign可以給出具備事實性的詳細(xì)解釋：

3、格式重構(gòu)

重寫

作者利用大模型（比如ChatGPT）基于之前定義的準(zhǔn)則和檢索到的證據(jù)（對于知識密集型任務(wù)）來重新改寫原數(shù)據(jù)集中的回答。具體來說，是通過提示將問題、原始回答、格式要求和證據(jù)（對于知識密集型任務(wù)）進(jìn)行組織，然后詢問大模型得到重寫后的回答。此外，由于一些問題有特定的格式要求，因此作者采用了自適應(yīng)改寫，即先讓大模型判斷該問題與給定的格式是否匹配，若匹配則改寫，否則保留原始回答。

此外，作者認(rèn)為一些特定任務(wù)不應(yīng)有特定格式要求，例如故事生成、詩歌生成等，因此作者對這類任務(wù)并沒有采用格式重構(gòu)（具體可看論文）。

后處理

長度過濾：作者發(fā)現(xiàn)大模型在改寫回答的時候偶爾會只輸出做了改變的句子，這種情況下長度會銳減。因此，作者將改寫后長度小于原始回答一半的數(shù)據(jù)保留其原始回答不改變。

基于任務(wù)的過濾：作者發(fā)現(xiàn)任務(wù)分類器有時候會導(dǎo)致錯誤傳播，因此針對以下3個任務(wù)設(shè)計了特定過濾規(guī)則：

代碼相關(guān)任務(wù)：通過關(guān)鍵詞匹配確定改寫前后的回答是否均包含代碼，如果其中一方不包含代碼則認(rèn)為改寫失敗，進(jìn)而保留原始回答。

考題任務(wù)：匹配改寫前后的答案是否一致，若不一致則認(rèn)為改寫失敗，保留原始回答。

計劃任務(wù)：如果問題中不包含計劃相關(guān)的關(guān)鍵詞，則不采納改寫的回答，保留原始回答。

實驗與結(jié)果

作者在5個數(shù)據(jù)集（Open-Platypus、No Robots、Alpaca、GSM8K、MATH）和2個模型（LLaMA-2-13B和Mistral-7B）上做了實驗。

作者首先在AlpacaEval、MT-Bench、Vicuna-Bench上測試了通用對齊能力，結(jié)果如下表所示，發(fā)現(xiàn)除了部分MT-Bench的第二輪對話性能下降，其他均有提升，證明了對回答格式重構(gòu)可以有效提升對齊能力。

隨后，作者測試該方法對數(shù)學(xué)推理能力的影響，其在GSM8K和MATH兩個常用數(shù)學(xué)數(shù)據(jù)集上進(jìn)行測試。結(jié)果如下表所示，可以看到該方法可以顯著提升數(shù)學(xué)推理能力，甚至可以得到9-10個點的提升。

此外，還具有顯著的OOD泛化能力，例如LLaMA-2-13B在MATH上訓(xùn)練，在GSM8K上測試可以提升10個點以上。作者認(rèn)為這樣的提升可能是因為格式重構(gòu)后帶來了更多以及更清晰的中間步驟和解釋，進(jìn)而提升了模型的數(shù)學(xué)推理能力。

接下來，作者構(gòu)造了一個評測標(biāo)準(zhǔn)去測試模型的事實性（Factuality），他們從帶有正確答案的NQ數(shù)據(jù)集中隨機(jī)篩選了100條數(shù)據(jù)。

隨后用訓(xùn)練好的模型去回答這100個問題，得到模型的回答，接下來采用一個提示模版將問題、答案和模型的回答組織起來，讓GPT-4為該回答與正確答案的符合程度進(jìn)行打分作為事實性分?jǐn)?shù)。

測評結(jié)果如下圖所示，可以看到在這三個數(shù)據(jù)集上事實性均有提升，作者認(rèn)為是檢索增強(qiáng)帶來的效果。

此外，作者還測試了模型的可讀性（Readability），他們針對Vicuna-Bench的回答，采用GPT-4和人工評估對用ReAlign前后的回答進(jìn)行一對一可讀性比較。

結(jié)果如下圖所示，可以看到無論是GPT-4還是人工，ReAlign后的數(shù)據(jù)集相比原始數(shù)據(jù)集均有顯著提升。

作者還進(jìn)行了對齊稅（Alignment Tax）分析，在知識型評測基準(zhǔn)BBH和AGIEval上進(jìn)行測試，發(fā)現(xiàn)采用ReAlign后的模型并不會損失其原有的知識，并且在個別情況還會有提升。

最后，作者分析了ReAlign的擴(kuò)展定律（Scaling Law），即只ReAlign一部分?jǐn)?shù)據(jù)，對訓(xùn)練后的模型的影響情況。

結(jié)果如下圖所示，可以看出只ReAlign 5%的數(shù)據(jù)即可為通用對齊能力帶來全部ReAlign的67%提升，并且隨著ReAlign的比例提升性能也呈上升趨勢。

總結(jié)

總的來說，GAIR研究組提出了一個新的對齊方法ReAlign，其可以自動化提升現(xiàn)有指令數(shù)據(jù)集的回答質(zhì)量，并且最小化了人工成本和幻覺影響。

他們ReAlign得到了了5個新的高質(zhì)量數(shù)據(jù)集Open-Platypus、No Robots、Alpaca、GSM8K和MATH。實驗證明，ReAlign可以顯著提升通用對齊能力、數(shù)學(xué)推理能力、事實性和可讀性，并且不會損害知識能力。

此外，也公開了數(shù)據(jù)集、人工精心撰寫的46種任務(wù)描述及格式、任務(wù)分類器及其訓(xùn)練數(shù)據(jù)、事實性評估數(shù)據(jù)集。

上一篇：探索數(shù)據(jù)科學(xué)對機(jī)器人的影響

下一篇：AI如何為體育運動提供環(huán)境與氣候信息支持？

久久亚洲一区二区三区四区,亚洲熟妇av一区二区三区色堂,国产精品免费大片,精品无码久久久久久久久曰韩邻居

僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力，上交開源新對齊方法ReAlign

猜你喜歡

熱門文章

物聯(lián)網(wǎng)卡和手機(jī)卡有什么區(qū)別？

物聯(lián)卡是正規(guī)卡嗎

定向流量和通用流量的區(qū)別

沃卡惠怎么補(bǔ)卡？

沃卡惠流量卡怎么樣?

產(chǎn)品推薦

新聞動態(tài)

《與沃同行》-“綠肥紅瘦”刊

端午安康！愛吃咸粽的看過來！

清明節(jié)｜緬懷先人，也要關(guān)愛家人

女神節(jié)| 灼灼其華，你是最美的花

團(tuán)圓時刻，燈謎增趣！你準(zhǔn)備好了嗎？

關(guān)注我們

僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力，上交開源新對齊方法ReAlign

猜你喜歡

熱門文章

產(chǎn)品推薦

新聞動態(tài)

關(guān)注我們

微信公眾號

僅需格式轉(zhuǎn)換提升9%數(shù)學(xué)推理能力，上交開源新對齊方法ReAlign