国产成人一区二区三区影院播放,日韩精品一区二区三区电影,一区二区国产一区二区

為優(yōu)化LLM為“小模型/少數(shù)據(jù)/好效果”，提供了一種新思路：”一步步蒸餾”（Distillingstep-by-step）

具體做法：訓練出一個更小的模型，同時輸出推理過程和標簽

總結

大模型部署耗費內存/算力，訓練特定任務的小模型采用：

微調（BERT、T5）

蒸餾（Vicuna）

但仍需要大量數(shù)據(jù)

本文提出”一步步蒸餾”（Distillingstep-by-step）機制:

模型更小

數(shù)據(jù)更少

實驗證明效果更佳（770M的T5，效果優(yōu)于540B的PaLM）

引言

1. LLM的作用

以LLM作為粗標注，同時標注時會給出推理過程，如“思維鏈”CoT

e.g.：

“Agentlemaniscarryingequipmentforgolf,whatdoeshelikelyhave?

(a)club,(b)assemblyhall,(c)meditationcenter,(d)meeting,(e)church”

答案是(a)，在上述選擇中，只有球桿用于高爾夫球。

上述邏輯會用于多任務訓練的額外數(shù)據(jù)

2. 任務準確性&所需訓練數(shù)據(jù)

相關工作

1. 知識蒸餾

從大的“老師模型”蒸餾出“學生模型”，缺點是“老師模型”產生的數(shù)據(jù)有噪聲

本文做法：蒸餾標簽、老師模型的推理過程，以降低對無標簽數(shù)據(jù)的需求量

2. 人類推理過程

規(guī)范模型行為

作為額外的模型輸入

作為高質量標簽

缺點：代價高昂

3. 大模型推理過程

可用于產生高質量的推理步驟，作為提示輸入到大模型

作為微調數(shù)據(jù)，進行“self-improve”大模型

一步步蒸餾

概覽圖：

分為兩步：

已有LLM和無標簽數(shù)據(jù)，利用推理過程，輸出標簽

以推理過程作為額外數(shù)據(jù)（細節(jié)信息較多），訓練更小的模型

基于這樣一個特性：LLM產生的推理過程能夠用于它自身的預測

假設prompt是個三元組，其中是輸入，是標簽，是推理過程

數(shù)據(jù)集記作，x是輸入，y是標簽，且二者都是自然語言

這個文本到文本的框架包括的自然語言處理任務有：分類、自然語言推理、問答等等

常見的做法：用監(jiān)督數(shù)據(jù)微調預訓練模型。

缺少人工標簽，特定任務的蒸餾是用LLM教師模型生成偽噪聲訓練標簽，代替

待降低交叉熵損失：

其中hat{y_i}$是模型蒸餾得到的標簽

將推理過程hat{r_i}$融入訓練過程的方式：

放到input后面，一同輸入到模型，此時的損失計算：

需要先用LLM產生推理過程，此時LLM是必要條件

（本文）轉化為多任務學習問題，訓練模型：

同時產生標簽、推理過程

采用后者的方式，此時的損失計算為：

其中，推理過程生成的損失為：

推理過程生成是預測之前的中間一步，而不是測試過程中產生的（如同公式2），所以測試時不再需要LLM，這就是所謂的"一步步蒸餾"。

另外，預先定義任務前綴，如[label]是標簽，[rationale]是推理過程

實驗

從兩方面證明“一步步蒸餾”的有效性：

與傳統(tǒng)的微調和蒸餾對比，效果有所提升

模型更小、部署代價更小

以最小的模型規(guī)模、數(shù)據(jù)量作為標準，“一步步蒸餾”的模型優(yōu)于LLM

基準模型

LLM：540B的PaLM

下游模型：T5

T5-Base(220M)

T5-Large(770M)

T5-XXL(11B)

數(shù)據(jù)集

e-SNLI （自然語言推理）：https://github.com/OanaMariaCamburu/e-SNLI

ANLI（自然語言推理）：https://huggingface.co/datasets/anli

CQA（問答）：https://www.tau-nlp.sites.tau.ac.il/commonsenseqa

SVAMP（算術數(shù)學詞問題）：https://github.com/arkilpatel/SVAMP

與一步步蒸餾對比的其他方法

標準的微調（有標簽）

標準的任務蒸餾（無標簽）

減少訓練數(shù)據(jù)

對比結果1

在標簽較少時，一步步蒸餾優(yōu)于標準微調

對比結果2

在標簽較少時，一步步蒸餾優(yōu)于標準蒸餾

降低模型大小

各種baseline模型大小不一時，一步步蒸餾都更優(yōu)

通過使用更小的特定任務模型一步步蒸餾逐步優(yōu)于LLM

對比結果3

在所有考慮的4個數(shù)據(jù)集上總是可以優(yōu)于少樣本CoT、PINTO調優(yōu)

對比結果4

在4個數(shù)據(jù)集中的3個上也優(yōu)于教師模型LLM

增強無標簽數(shù)據(jù)，可進一步改進一步步蒸餾

使用最小模型大小和最小訓練數(shù)據(jù)

對比結果5

用更小模型、更少數(shù)據(jù)，一步步蒸餾優(yōu)于LLM

對比結果6

標準的微調和蒸餾需要更多的數(shù)據(jù)和更大的模型

總結

實驗證明，一步步蒸餾降低了訓練數(shù)據(jù)量、特定任務的模型大小、優(yōu)于初始LLM的性能

局限性：

用戶需要提供帶標簽數(shù)據(jù)

LLM推理能力有限，尤其面對復雜推理和規(guī)劃問題

審核編輯：彭靜

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關注

關注
8

文章
7342

瀏覽量
94936
模型

模型

+關注

關注
1

文章
3781

瀏覽量
52199

原文標題：小模型媲美2000倍體量大模型，谷歌提出新思路：蒸餾也能Step-by-Step

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

基于一步步蒸餾（Distilling step-by-step）機制

評論