什么樣的模型更適合zero-shot？

對于模型架構，不同的論文有不同的分發(fā)，不同的名稱。我們不必糾結于稱謂，在這里我們延續(xù)BigScience的概念來討論，即：

架構：自回歸、非自回歸、編碼器-解碼器
目標：全語言模型、前綴語言模型、掩碼語言模型
適配器：不添加適配器、將自回歸模型用于掩碼目標訓練的適配器、將掩碼為目標的模型轉化為純語言模型目標
是否經過多任務微調
評估數據集：EAI-Eval、T0-Eval

BigScience有兩項重要的結論，但這兩項結論是在控制預訓練的預算的基礎上的，而非控制參數量。如此實驗編碼器-解碼器用了11B參數量，而純解碼器卻是4.8B。

如果不經過多任務微調，自回歸模型最好，掩碼語言模型跟隨機結果一樣。
如果經過多任務微調，編碼器-解碼器掩碼模型最好【這參數量都翻倍了，很難說不是參數量加倍導致的】。換個角度想，在多任務微調之后，自回歸全語言模型在參數量不到編碼器-解碼器掩碼模型一半，計算量還少10%的情況下，效果還能差不多。

來自科學空間的對比實驗【https://spaces.ac.cn/archives/9529】更是印證了這一點：

在同等參數量、同等推理成本下，Decoder-only架構很可能是最優(yōu)選擇。

效果和模型形狀有沒有關系

在openAI的實驗中，通過控制參數量，分別調整模型形狀的三個指標前饋維度比、寬高比、注意力頭維度，實驗表明，模型形狀對性能的依賴非常輕微。

單獨研究層數，排除嵌入層的影響，除了一層這種極端情況之外，同樣參數下，不同的層數傾向于收斂于同樣的損失。

到底需要多少數據訓練

在GPT-3中參數數據比約為1：1.7，而Chinchilla是為1：20。然而GPT-3參數量是Chinchilla的2.5倍，下游任務卻大范圍地輸給了Chinchilla。再看LLaMA就更離譜了約為1：77，只有13B參數量很多任務就超越了GPT-3。這是不是和咱公眾號名字很符合：【無數據不智能】，海量高質量數據才是王道。

Model	Parameters	Training Tokens
LaMDA (2022)	137 Billion	168 Billion
GPT-3 (2020)	175 Billion	300 Billion
Jurassic (2021)	178 Billion	300 Billion
Gopher (2021)	280 Billion	300 Billion
MT-NLG 530B (2022)	530 Billion	270 Billion
Chinchilla（202）	70 Billion	1.4 Trillion
LLaMA（202）	13 Billion	1.0 Trillion