国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

華為諾亞提出新型Prompting (PHP),GPT-4拿下最難數學推理數據集新SOTA

深度學習自然語言處理 ? 來源:機器之心 ? 2023-05-15 09:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

模擬人類推理過程,華為諾亞提出 Progressive-Hint Prompting (PHP) 引導大模型漸近正確答案。

近期,華為聯和港中文發表論文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出Progressive-Hint Prompting(PHP),用來模擬人類做題過程。在 PHP 框架下,Large Language Model (LLM) 能夠利用前幾次生成的推理答案作為之后推理的提示,逐步靠近最終的正確答案。要使用 PHP,只需要滿足兩個要求:

問題能夠和推理答案進行合并,形成新的問題;

模型可以處理這個新的問題,給出新的推理答案。

f62ed04a-f2b5-11ed-90ce-dac502259ad0.png

結果表明,GP-T-4+PHP 在多個數據集上取得了SOTA結果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。該方法大幅超過 GPT-4+CoT。比如,在現在最難的數學推理數據集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 數據集的 Nember Theory (數論) 子集提升 6.1%, 將 MATH 整體提升到 53.9%,達到 SOTA。

f64b6552-f2b5-11ed-90ce-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2304.09797

代碼鏈接:https://github.com/chuanyang-Zheng/Progressive-Hint

介紹

隨著 LLM 的發展,涌現了關于 prompting 的一些工作,其中有兩個主流方向:

一個以 Chain-Of-Thought( CoT,思維鏈) 為代表,通過清楚得寫下推理過程,激發模型的推理能力;

另一個以 Self-Consistency (SC) 為代表,通過采樣多個答案,然后進行投票得到最終答案。

顯然,現存的兩種方法,沒有對問題進行任何的修改,相當于做了一遍題目之后就結束了,而沒有反過來帶著答案進行再次檢查。PHP 嘗試模擬更加類人推理過程:對上次的推理過程進行處理,然后合并到初始的問題當中,詢問 LLM 進行再次推理。當最近兩次推理答案一致時,得到的答案是準確的,將返回最終答案。具體的流程圖如下所示:

f66dfed2-f2b5-11ed-90ce-dac502259ad0.png

在第一次與 LLM 交互的時候,應當使用 Base Prompting (基礎提示), 其中的 prompt(提示)可以是 Standard prompt,CoT prompt 或者其改進版本。通過 Base Prompting,可以進行第一次交互,然后得到初步的答案。在隨后的交互中,應當使用 PHP,直至最新的兩個答案一致。

PHP prompt 基于 Base Prompt 進行修改。給定一個 Base Prompt,可以通過制定的 PHP prompt design principles 來得到對應的 PHP prompt。具體如下圖所示:

f6908a6a-f2b5-11ed-90ce-dac502259ad0.png

作者希望PHP prompt能夠讓大模型學習到兩種映射模式:

1)如果給的 Hint 是正確答案,那么返回的答案依然要是正確答案 (具體如上圖所示的「Hint is the correct answer」);
2)如果給的 Hint 是錯誤答案,那么 LLM 要通過推理,跳出錯誤答案的 Hint,返回正確答案(具體如上圖所示的「Hint is the incorrect answer」)。

按照這種 PHP prompt 的設計規則,給定任意現存的 Base Prompt,作者都可以設定出對應的 PHP Prompt。

實驗

作者使用七個數據集,包括 AddSub、MultiArith、SingleEQ、SVAMP、GSM8K、 AQuA 和 MATH。同時,作者一共使用了四個模型來驗證作者的想法,包括 text-davinci-002、text-davinci-003、GPT-3.5-Turbo 和 GPT-4。

主要結果

f6b09ac6-f2b5-11ed-90ce-dac502259ad0.png

當語言模型更強大、提示更有效時,PHP 的效果更好。相比于 Standard Prompt 和 CoT Prompt,Complex CoT prompt 表現出了顯著的性能提升。分析還顯示,使用強化學習進行微調的 text-davinci-003 語言模型比使用監督指令微調的 text-davinci-002 模型表現更好,能夠提升文檔效果。text-davinci-003 的性能提高歸因于其增強的能力,使其更好地理解和應用給定的提示。同時,如果只是使用 Standard prompt,那么 PHP 所帶來的提升并不明顯。如果需要讓 PHP 起到效果,至少需要 CoT 來激發模型的推理能力。

f6cefff2-f2b5-11ed-90ce-dac502259ad0.png

同時,作者也探究了交互次數與模型、prompt 之間的關系。當語言模型更強大,提示更弱時,交互次數會減少。交互次數指代智能體與 LLMs 互動的次數。當收到第一個答案時,交互次數為 1;收到第二個答案時,交互次數增加到 2。在圖 2 中,作者展示了各種模型和提示的交互次數。作者的研究結果表明:

1)在給定相同提示的情況下,text-davinci-003 的交互次數通常低于 text-davinci-002。這主要是由于 text-davinci-003 的準確性更高,導致基礎答案和后續答案的正確率更高,因此需要更少的交互才能得到最終的正確答案;
2)當使用相同的模型時,隨著提示變得更強大,交互次數通常會增加。這是因為當提示變得更有效時,LLMs 的推理能力會得到更好的發揮,從而使它們能夠利用提示跳出錯誤答案,最終導致需要更高的交互次數才能達到最終答案,這使得交互次數增加。

Hint 質量的影響

f705f89a-f2b5-11ed-90ce-dac502259ad0.png

為了增強 PHP-Standard 的性能,將 Base Prompt Standard 替換為 Complex CoT 或 CoT 可以顯著提高最終性能。對 PHP-Standard 而言,作者觀察到在 Base Prompt Standard 下,GSM8K 的性能從 16.0% 提高到了在基礎提示 CoT 下的 50.2%,再提高到在基礎提示 Complex CoT 下的 60.3%。相反,如果將 Base Prompt Complex CoT 替換為 Standard,則最終性能會降低。例如,在將基礎提示 Complex CoT 替換為 Standard 后,PHP-Complex CoT 在 GSM8K 數據集上的性能從 71.6% 下降到了 65.5%。

如果 PHP 不是基于相應的 Base Prompt 進行設計,那么效果可能進一步提高。使用 Base Prompt Complex CoT 的 PHP-CoT 在六個數據集中的四個數據集表現優于使用 CoT 的 PHP-CoT。同樣地,使用基礎提示 CoT 的 PHP-Complex CoT 在六個數據集中的四個數據集表現優于使用 Base Prompt Complex CoT 的 PHP-Complex CoT。作者推推測這是因為兩方面的原因:1)在所有六個數據集上,CoT 和 Complex CoT 的性能相似;2)由于 Base Answer 是由 CoT(或 Complex CoT)提供的,而后續答案是基于 PHP-Complex CoT(或 PHP-CoT),這就相當于有兩個人合作解決問題。因此,在這種情況下,系統的性能可能進一步提高。

消融實驗

f723ff5c-f2b5-11ed-90ce-dac502259ad0.png

將句子 P1 和 P2 納入模型可以提高 CoT 在三個數據集上的表現,但當使用 Complex CoT 方法時,這兩個句子的重要性尤為明顯。在加入 P1 和 P2 后,該方法在六個數據集中有五個數據集的表現得到了提升。例如,在 SVAMP 數據集上,Complex CoT 的表現從 78.0% 提高到了 80.0%,在 GSM8K 數據集上從 68.3% 提高到了 71.6%。這表明,尤其是在模型的邏輯能力更強時,句子 P1 和 P2 的效果更為顯著。

f73f5d9c-f2b5-11ed-90ce-dac502259ad0.png

在設計提示時需要同時包含正確和錯誤的提示。當設計的提示同時包含正確和錯誤的提示時,使用 PHP 的效果優于不使用 PHP。具體來說,提示中提供正確的提示會促進生成與給定提示相符的答案。相反,提示中提供錯誤的提示則會通過給定的提示鼓勵生成其他答案

PHP+Self-Consistency

f75ccd3c-f2b5-11ed-90ce-dac502259ad0.png

f77f21ac-f2b5-11ed-90ce-dac502259ad0.png

使用 PHP 可以進一步提高性能。通過使用類似的提示和樣本路徑數量,作者發現在表 6 和圖 3 中,作者提出的 PHP-CoT 和 PHP-Complex CoT 總是比 CoT 和 Complex CoT 表現更好。例如,CoT+SC 的樣本路徑為 10、20 和 40 時,能夠在 MultiArith 數據集上達到 96.5% 的準確率。因此,可以得出結論,CoT+SC 的最佳性能為 96.5%,使用 text-davinci-003。然而,在實施 PHP 之后,性能升至 97.1%。同樣,作者還觀察到在 SVAMP 數據集上,CoT+SC 的最佳準確率為 83.3%,在實施 PHP 后進一步提高到 83.7%。這表明,PHP 可以打破性能瓶頸并進一步提高性能。

使用 PHP 可以降低 SC 的成本,眾所周知,SC 涉及更多的推理路徑,導致成本更高。表 6 說明,PHP 可以是降低成本的有效方法,同時仍保持性能增益。如圖 3 所示,使用 SC+Complex CoT,可以使用 40 個樣本路徑達到 78.1% 的準確率,而加入 PHP 將所需平均推理路徑降低到 10×2.1531=21.531 條路徑,并且結果更好,準確率達到了 78.2%。

GPT-3.5-Turbo 和 GPT-4

f7a07c3a-f2b5-11ed-90ce-dac502259ad0.png

作者按照以前的工作設置,使用文本生成模型進行實驗。隨著 GPT-3.5-Turbo 和 GPT-4 的 API 發布,作者在相同的六個數據集上驗證了具有 PHP 的 Complex CoT 的性能。作者對這兩個模型都使用貪心解碼(即溫度 = 0)和 Complex CoT 作為提示。

如表 7 所示,提出的 PHP 增強了性能,在 GSM8K 上提高了 2.3%,在 AQuA 上提高了 3.2%。然而,與 text-davinci-003 相比,GPT-3.5-Turbo 表現出對提示的依附能力降低。作者提供了兩個例子來說明這一點:

a)在提示缺失的情況下,GPT-3.5-Turbo 無法回答問題,并回復類似于 “由于答案提示缺失,我無法回答此問題。請提供答案提示以繼續” 的聲明。相比之下,text-davinci-003 在回答問題之前會自主生成并填充缺失的答案提示;
b)當提供超過十個提示時,GPT-3.5-Turbo 可能會回復 “由于給出了多個答案提示,我無法確定正確的答案。請為問題提供一個答案提示。”

f7b5c040-f2b5-11ed-90ce-dac502259ad0.png

在部署 GPT-4 模型后,作者能夠在 SVAMP、GSM8K、AQuA 和 MATH 基準測試上實現新的 SOTA 性能。作者提出的 PHP 方法不斷改善了 GPT-4 的性能。此外,與 GPT-3.5-Turbo 模型相比,作者觀察到 GPT-4 所需的交互次數減少了,這與 “當模型更加強大時,交互次數會減少” 的發現相一致。

總結

本文介紹了 PHP 與 LLMs 交互的新方法,具有多個優點:

1)PHP 在數學推理任務上實現了顯著的性能提升,在多個推理基準測試上領先于最先進的結果;
2)使用更強大的模型和提示,PHP 可以更好地使 LLMs 受益;
3)PHP 可以與 CoT 和 SC 輕松結合,進一步提高性能。

為了更好地增強 PHP 方法,未來的研究可以集中在改進問題階段的手工提示和答案部分的提示句子的設計上。此外,除了將答案當作 hint,還可以確定和提取有助于 LLMs 重新考慮問題的新 hint。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099
  • PHP
    PHP
    +關注

    關注

    0

    文章

    462

    瀏覽量

    28622
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26190

原文標題:華為諾亞提出新型Prompting (PHP),GPT-4拿下最難數學推理數據集新SOTA

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為破解HBM依賴!AI推理黑科技UCM上線,9月正式開源

    8月12日,在2025金融AI推理應用落地與發展論壇上,華為公司副總裁、數據存儲產品線總裁周越峰宣布,華為此次和銀聯聯合創新,推出AI推理
    的頭像 發表于 08-13 08:58 ?1.1w次閱讀
    <b class='flag-5'>華為</b>破解HBM依賴!AI<b class='flag-5'>推理</b>黑科技UCM上線,9月正式開源

    商湯開源SenseNova-MARS:突破多模態搜索推理天花板

    )、GPT-5.2(67.64 分)。 SenseNova-MARS是首個支持動態視覺推理和圖文搜索深度融合的 Agentic VLM 模型,它能自己規劃步驟、調用工具,輕松搞定各種復雜任務,讓AI真正具備
    的頭像 發表于 01-29 23:53 ?151次閱讀
    商湯開源SenseNova-MARS:突破多模態搜索<b class='flag-5'>推理</b>天花板

    NVIDIA BlueField-4數據處理器重塑新型AI原生存儲基礎設施

    NVIDIA 宣布,NVIDIA BlueField?-4 數據處理器作為全棧 NVIDIA BlueField 平臺的一部分,為 NVIDIA 推理上下文記憶存儲平臺提供支持,這是一種新型
    的頭像 發表于 01-09 10:33 ?469次閱讀

    GPT-5.1發布 OpenAI開始拼情商

    -5.1 Thinking:高級推理模型,在簡單任務上更快,在復雜任務上更持久,也更容易理解。 對于新上線的GPT-5.1大模型,OpenAI?官方表示出色的 AI 不僅是要夠聰明,還要讓人與之對
    的頭像 發表于 11-13 15:49 ?702次閱讀

    從 0 到 1:用 PHP 爬蟲優雅地拿下京東商品詳情

    在電商數據驅動的時代, 商品詳情數據 成為市場分析、價格監控、競品調研的核心燃料。京東作為國內頭部電商平臺,其商品信息豐富、更新頻繁,是數據開發者眼中的“香餑餑”。 本文將帶你 從 0 到 1 ,用
    的頭像 發表于 09-23 16:42 ?852次閱讀
    從 0 到 1:用 <b class='flag-5'>PHP</b> 爬蟲優雅地<b class='flag-5'>拿下</b>京東商品詳情

    【RA4M2-SENSOR】3、使用GPT定時器-PWM輸出

    GPT介紹 通用 PWM 定時器(GPT,General PWM Timer)是 RA MCU 的其中一種 32/16 位的定時器外設。 在 GPT 當中,可分為 GPT32 和
    發表于 09-01 15:20

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    Token (TPS)。 這兩個 gpt-oss 模型是具有鏈式思維和工具調用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型 (MoE) 架構和 SwigGLU 激活函數。其注意力層使用 RoPE 技術
    的頭像 發表于 08-15 20:34 ?2298次閱讀
    NVIDIA從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss模型部署,實現150萬TPS<b class='flag-5'>推理</b>

    華為亮相2025金融AI推理應用落地與發展論壇

    近日,2025金融AI推理應用落地與發展論壇在上海舉行。中國銀聯執行副總裁涂曉軍、華為數字金融軍團CEO曹沖出席本次論壇并發表致辭。論壇上,華為公司副總裁、數據存儲產品線總裁周躍峰博士
    的頭像 發表于 08-15 09:45 ?1219次閱讀

    今日看點丨華為發布AI推理創新技術UCM;比亞迪汽車出口暴增130%

    ? ? 降低HBM依賴,華為發布AI推理創新技術UCM ? 日前,華為正式發布AI推理創新技術UCM(推理記憶
    發表于 08-13 09:45 ?5303次閱讀

    AURIX tc367通過 MCU SOTA 更新邏輯 IC 閃存是否可行?

    你好專家:我的用例是 MCU 通過 SPI 連接到邏輯 IC,邏輯 IC 連接到 8MB 閃存,但 MCU PFLASH 大小為 2MB,通過 MCU SOTA 更新邏輯 IC 閃存是否可行?
    發表于 08-11 06:36

    OpenAI或在周五凌晨發布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或將發布。據外媒的報道,GPT-5很可能在周五凌晨發布。這是OpenAI在2023年的3月份推出自然語言處理模型GPT-4之后,兩年多時候后最受
    的頭像 發表于 08-07 14:13 ?1.2w次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    推理能力和泛化能力。 在多項基準測試中,DeepSeek-V3的表現優于GPT-4等主流閉源模型,在長文本處理、 代碼生成和數學推理等領域展現了頂尖性能。DeepSeek-V3 的
    發表于 07-17 11:59

    大模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數據的情況下,通過深度學習模型進行預測或分類的過程。然而,大模型的推理過程對顯存和計算資源的需求較高,這給實際應用帶來了以下挑戰: 顯存不足:大模型在
    發表于 07-03 19:43

    GPT-5即將面市 性能遠超GPT-4

    行業芯事
    電子發燒友網官方
    發布于 :2025年06月04日 13:38:23

    適用于數據中心和AI時代的800G網絡

    ,成為新一代AI數據中心的核心驅動力。 AI時代的兩大數據中心:AI工廠與AI云 AI時代催生了兩類數據中心架構: AI工廠:用于大規模模型訓練和推理,如
    發表于 03-25 17:35