精品日产久久一区2区三区,中文字幕视频精品一区二区,欧美高清精品一区二区

微軟發(fā)布 Orca 2 LLM，這是 Llama 2 的一個調(diào)優(yōu)版本，性能與包含 10 倍參數(shù)的模型相當，甚至更好。Orca 2 使用了一個合成訓練數(shù)據(jù)集和一項稱為 Prompt Erasure（提示詞擦除）的新技術來實現(xiàn)這一性能。

Orca 2 使用了師生模式的訓練方案，其中一個較大、較強的 LLM 作為另一個較小的 LLM（學生）的老師，老師的目標是提升學生的性能，使其與更大模型的性能相媲美。微軟的訓練技術教會較小的模型多種推理技巧，并教其如何為特定任務選擇最有效的技巧。

為此，老師被賦予了復雜的提示詞來觸發(fā)某種推理行為。不過，在一種被稱為 Prompt Erasure 的方案中，學生只得到任務要求和期望的響應，而不是老師的提示詞。在基準測試中，一個擁有 13B 參數(shù)的 Orca 2 模型的表現(xiàn)超過了一個 13B 參數(shù)的基準 Llama 2 模型，提升了 47.54%。而一個擁有 7B 參數(shù)的 Orca 2 模型在推理任務方面與一個擁有 70B 參數(shù)的 Llama 2 模型相當，甚至更好。

盡管像 ChatGPT 這樣的 LLM 在給定少量提示詞的情況下通常表現(xiàn)良好，但由于其內(nèi)存和計算需求較大，托管這些模型極具有挑戰(zhàn)性。經(jīng)過調(diào)優(yōu)的較小的模型也可以表現(xiàn)良好，許多研究人員已經(jīng)在研究使用較大 LLM 生成的合成數(shù)據(jù)集對它們進行訓練。

InfoQ 最近報道了谷歌的 Distilling Step-by-Step 方法，該方法會讓老師 LLM 自動生成一個小型的調(diào)優(yōu)數(shù)據(jù)集，其中包含輸入和輸出標簽，以及為何選擇輸出標簽的“基本原理”。InfoQ 還報道了 Stability AI 的 Stable Beluga 模型，它使用微軟原始的 Orca 1 方案進行訓練，該方案使用了 Explanation Tuning，其中老師 LLM 被提示“生成詳細答案”。

與 Orca 1 類似，Orca 2 訓練數(shù)據(jù)集是由老師 LLM 生成的，而老師 LLM 收到了詳細的提示詞。然而，微軟新的訓練方法 Cautious Reasoning 將訓練任務與提示詞相結合，引導老師 LLM 使用特定的問題解決策略，如“一步一步”或“解釋你的答案”。然后在學生的訓練過程中，老師的提示詞被刪除，這促使學生學會選擇正確的策略。

為了評估這種方法，微軟將 Orca 2 模型的性能與幾個基準模型進行了比較，包括 Llama 2、ChatGPT（GPT-3.5）和 GPT-4。基準任務包括推理、語言理解、文本完成和摘要。在推理基準測試中，13B 參數(shù) Orca 2 模型優(yōu)于除 ChatGPT 和 GPT-4 之外的所有基準。他們還發(fā)現(xiàn)，給 Orca 2 一個“謹慎”的系統(tǒng)提示詞（“你是一個謹慎的助手，你會仔細遵循指示”）相比無系統(tǒng)提示會略微提升其性能。

有幾位用戶在 X 上發(fā)表了關于 Orca 2 的帖子。一位用戶指出：“你不需要用‘一步一步解釋’這樣的技巧來提示它。它自己知道。” AI 研究員 Rudi Ranck 寫道：

許多絕妙的想法都很簡單……就像 Orca 2 中的“提示詞擦除”一樣：完整的提示詞不會呈現(xiàn)給模型，而只呈現(xiàn)任務和答案（它過濾了生成這些答案所使用的完整提示詞）。這有助于模型在更高層次上制定策略。這是一篇非常好的論文。我強烈建議通讀全文。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴