1 簡(jiǎn)介
Prompt learning中的prompt如同一種心理暗示,可以驅(qū)使語言模型按照特定的方向去預(yù)測(cè)。就像一種解題技巧,只要加入了它,就能更準(zhǔn)確的解決問題。在之前prompt系列的文章中,我們介紹過各種形式的prompt,也強(qiáng)調(diào)過一個(gè)合適的prompt對(duì)于下游任務(wù)的效果影響重大,為此如何尋找一個(gè)合適的prompt的顯得尤為重要。
今天介紹一個(gè)最近剛被發(fā)現(xiàn)的“寶藏prompt”,Let’s think step by step,通過使用特定的prompt“Let’s think step by step”和相應(yīng)的兩階段prompt技巧,提高了大規(guī)模語言模型在的推理能力,在多個(gè)推理相關(guān)的zero-shot任務(wù)取得驚人的提升,遠(yuǎn)超之前的zero-shot方法。
2背景
大規(guī)模預(yù)訓(xùn)練語言模型借助于針對(duì)特定任務(wù)設(shè)計(jì)的prompt(無論是few shot還是zero shot),在單步驟的system-1任務(wù)上有著出色表現(xiàn),但是對(duì)于那些緩慢和需要多步推理的system-2任務(wù)表現(xiàn)不佳。(system-1跟system-2是心理學(xué)家定義的一些推理任務(wù),可以理解為system-1是那些一步就可以推出答案的任務(wù),,而system-2則是那些需要通過多步推理才能解決的任務(wù))。
為了解決大規(guī)模語言模型在system-2任務(wù)中表現(xiàn)不佳的問題,CoT(Chain of thought prompting)被提出來,它將原本的few shot的樣例,調(diào)整為逐步推理的答案,從而讓語言模型去學(xué)習(xí)few shot樣例的逐步推理過程,從而控制模型推理能力的方向,在復(fù)雜的system-2任務(wù)中獲得明顯提升。細(xì)節(jié)可以見下圖中的樣例,其中左上角就是原本的few shot prompt,而右上角就是將few shot樣例調(diào)整為逐步推理樣例的CoT(為了跟后面的Zero-shot-CoT區(qū)分而稱為Few-shot- CoT),可以看出Few-shot-CoT是將few shot樣例里的推理過程展開了,讓語言模型能更好的學(xué)習(xí)其中的細(xì)節(jié)。

圖1:Few-shot, Few-shot-CoT, Zero-shot, Zero-shot-CoT示例
3 Zero-shot-CoT
跟前面提及的Few-shot Cot不同,Zero-shot-CoT不需要經(jīng)過調(diào)整的逐步推理的few shot樣例,也不同大多數(shù)prompt,它不依賴于特定的任務(wù),可以利用當(dāng)前問題逐步的推理過程推導(dǎo)得到一個(gè)簡(jiǎn)單的prompt模版,從而控制語言模型預(yù)測(cè)的方向。Zero-shot Cot的核心是利用“Let’s think step by step”去抽取當(dāng)前問題的逐步推理過程。雖然Zero-shot-CoT的概念很簡(jiǎn)單,它的巧妙之處在于整個(gè)過程使用了兩次prompt,具體過程如下,同時(shí)可以查看下圖樣例加深理解。
a)推論抽取
首先將問題X通過一個(gè)簡(jiǎn)單的模版”Q:[X].A:[Z]”調(diào)整為一個(gè)prompt,其中[X]是一個(gè)輸入槽位,通過問題X來填充,而[Z]是一個(gè)觸發(fā)器槽位,用一個(gè)人工構(gòu)建的觸發(fā)器句子來填充,使得語言模型可以從中抽取回答問題X所需的逐步推理過程,論文中用的觸發(fā)器句子是“Let’s think step by step.”。然后將構(gòu)造好的模版輸入到語言模型,從而生成后續(xù)的句子Z(可以使用任何解碼策略,論文為了簡(jiǎn)便使用了貪婪解碼策略)。
b)答案抽取
將第一步構(gòu)造好的模版Q:[X].A:[Z],生成的句子Z,和一個(gè)新的觸發(fā)器句子[A]拼接到一起輸入到同一個(gè)語言模型,利用語言模型生成的結(jié)果進(jìn)行解析得到最終的答案。這一步的觸發(fā)器句子[A]跟第一步的觸發(fā)器句子不同,它依賴于具體的答案形式,例如圖中樣例用的觸發(fā)器句子是“Therefore, the answer (arabic numerals) is”

圖2: Zero-shot-Cot全過程
Zero-shot-CoT跟Few-shot-CoT的區(qū)別在于,對(duì)于每個(gè)任務(wù),F(xiàn)ew-shot-CoT需要謹(jǐn)慎的人工工程將few shot樣例轉(zhuǎn)化為特定的答案格式,就是其中的逐步推理過程,而Zero-shot-CoT則不需要這些工程,只需要調(diào)用兩次語言模型即可實(shí)現(xiàn)。Zero-shot-CoT跟Zero-shot的區(qū)別在于,Zero-shot-Cot多了生成多步推論的過程,最終輸入語言模型的文本會(huì)更加豐富,語言模型能按照逐步推論的方向進(jìn)行預(yù)測(cè),從而更好的控制語言模型的輸出。
4 實(shí)驗(yàn)結(jié)果
論文在算術(shù)推理跟常識(shí)推理相關(guān)的任務(wù)做了實(shí)驗(yàn),有以下一些實(shí)驗(yàn)結(jié)論。
a)Zero-shot-CoT在需要多步推理的算術(shù)推理任務(wù),符號(hào)推理任務(wù),其他邏輯推理任務(wù)上大幅超越zero-shot,在不需要多步推理的算數(shù)推理任務(wù)上(SingleEq和AddSub)上跟zero-shot水平相當(dāng)。在常識(shí)推理任務(wù)上,Zero-shot-Cot表現(xiàn)沒有提升。

圖3: Zero-shot-CoT跟Zero-shot在多個(gè)任務(wù)上的表現(xiàn)
b)在算術(shù)推理任務(wù)中,雖然Zero-shot-CoT不及Few-shot-CoT,但明顯優(yōu)于標(biāo)準(zhǔn)的Few-shot,即便是帶8個(gè)樣例的Fes-shot方法。

圖4: 在多步算法推理任務(wù)上多種方法的效果對(duì)比
c)對(duì)于常識(shí)推理問題,Zero-shot-CoT通常能生成靈活合理的推論,即便最終預(yù)測(cè)是錯(cuò)誤的(下圖左邊樣例)。同時(shí)當(dāng)模型發(fā)現(xiàn)很難將答案選項(xiàng)縮小時(shí),Zero-shot-CoT經(jīng)常輸出多個(gè)答案選項(xiàng)(下圖右邊樣例)。

圖5: Zero-shot-CoT在常識(shí)推理任務(wù)的若干bad case
5討論
a)語言模型規(guī)模跟zero-shot推理是否相關(guān)?
大規(guī)模語言模型能帶來更合理的推理。對(duì)于不需要多步推理的任務(wù),zero-shot表現(xiàn)隨著語言模型規(guī)模的增長(zhǎng)可能不增長(zhǎng)或者增長(zhǎng)非常緩慢,但是對(duì)于需要多步推理的任務(wù),隨著語言模型規(guī)模的增長(zhǎng),zero-shot的效果飛速增長(zhǎng)。

圖6:模型規(guī)模的影響
b)Prompt的選擇是否影響Zero-shot-CoT
如果文本被撰寫成有利于深度推理的樣子,模型效果也會(huì)得到提升。不同的prompt會(huì)驅(qū)使模型表示出迥然不同的推理能力,具體的差異取決了實(shí)際句子。在論文實(shí)驗(yàn)中,其中一個(gè)prompt”Let’s think step by step”取得最優(yōu)的效果。

圖7:不同prompt對(duì)于Zero-shot-CoT的影響
c)大規(guī)模語言模型的推理能力
部分研究表明預(yù)訓(xùn)練模型通常不擅長(zhǎng)推理任務(wù),但是通過讓它進(jìn)行逐步推理可以極大程度的提升它的推理性能,而不是通過微調(diào)。論文的實(shí)驗(yàn)也佐證了大規(guī)模語言模型是一個(gè)合適的zero-shot推理器。
d)Multi-task prompting
大多數(shù)prompt都是針對(duì)特定任務(wù)而設(shè)計(jì)的,但是Zero-shot-CoT是支持多任務(wù)的,具有更強(qiáng)的泛化能力,能應(yīng)用到更多不同的任務(wù)中去。Zero-shot-CoT可以為作為一種參考,不僅加速應(yīng)用大規(guī)模語言模型進(jìn)行邏輯推理的研究,也加速發(fā)現(xiàn)其他大規(guī)模語言模型的廣泛感知能力的研究。
6總結(jié)
個(gè)人覺得,相比其他prompt相關(guān)的文章,Zero-shot-CoT通過兩階段的prompt過程設(shè)計(jì),擺脫了prompt工程的限制,也不受限于具體的任務(wù),更好的控制模型的預(yù)測(cè)方向。雖然思想跟Few-shot-CoT很像,但是擺脫了其中的精心設(shè)計(jì)的將few shot樣例轉(zhuǎn)化為合適的prompt的過程。這一點(diǎn)還是很有價(jià)值的。
但是,看完這個(gè)文章還是有不少的疑問。文章提及Zero-shot-CoT是multi-task的方法,但是只在推理相關(guān)的任務(wù)上進(jìn)行實(shí)驗(yàn),Let’s think step by step”在非推理的任務(wù)上也會(huì)是最優(yōu)選擇嗎?在其他任務(wù)上,Zero-shot-CoT能取得多少增益?對(duì)于其他語言而言,找到自身最佳的“Let’s think step by step”只能把所有可能的prompt都測(cè)試一遍嗎?有其他自動(dòng)化的手段嗎?有沒有跨語言的“Let’s think step by step”?
參考文獻(xiàn)
1.(2022,) Large Language Models are Zero-Shot Reasoners
https://arxiv.org/pdf/2205.11916.pdf
審核編輯 :李倩
-
自動(dòng)化
+關(guān)注
關(guān)注
31文章
5931瀏覽量
90225 -
語言模型
+關(guān)注
關(guān)注
0文章
571瀏覽量
11310
原文標(biāo)題:提示學(xué)習(xí) | Let’s think step by step
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
MULTI-BEAM Plus電源連接器有何特點(diǎn)?-赫聯(lián)電子
Amphenol Multi-Trak?:下一代高速互連解決方案
新思科技以AI驅(qū)動(dòng)EDA加速Multi-Die創(chuàng)新
AI智能大模型,你身邊的最好用的辦公提效小能手
【作品合集】玄鐵BPI-CanMV-K230D-Zero開發(fā)板測(cè)評(píng)
特瑞仕DC/DC轉(zhuǎn)換器的HiSAT-COT高速瞬態(tài)響應(yīng)技術(shù)
Task任務(wù):LuatOS實(shí)現(xiàn)“任務(wù)級(jí)并發(fā)”的核心引擎
揭秘LuatOS Task:多任務(wù)管理的“智能中樞”
水晶光電COT Vietnam新工廠開業(yè)投產(chǎn)
開源Made with KiCad(134):Icepi Zero - 基于Lattice ECP5的便攜FPGA開發(fā)板
樹莓派 Zero 2 W 是開啟智能家居生活的理想之選!
【開源分享】:開源小巧的FPGA開發(fā)板——Icepi Zero
用 樹莓派 Zero 打造的智能漫游車!
Zero-shot-CoT是multi-task的方法
評(píng)論