国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么transformer性能這么好?Transformer的上下文學習能力是哪來的?

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 作者:智能感知與物聯網 ? 2023-09-25 12:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

有理論基礎,我們就可以進行深度優化了。
為什么 transformer 性能這么好?它給眾多大語言模型帶來的上下文學習 (In-Context Learning) 能力是從何而來?在人工智能領域里,transformer 已成為深度學習中的主導模型,但人們對于它卓越性能的理論基礎卻一直研究不足。 最近,來自 Google AI、蘇黎世聯邦理工學院、Google DeepMind 研究人員的新研究嘗試為我們揭開謎底。在新研究中,他們對 transformer 進行了逆向工程,尋找到了一些優化方法。論文《Uncovering mesa-optimization algorithms in Transformers》:

84a89f1c-5ad6-11ee-939d-92fbcf53809c.jpg

論文鏈接:https://arxiv.org/abs/2309.05858 作者證明,最小化通用自回歸損失會產生在 Transformer 的前向傳遞中運行的基于輔助梯度的優化算法。這種現象最近被稱為「mesa 優化(mesa-optimization)」。此外,研究人員發現所得的 mesa 優化算法表現出上下文中的小樣本學習能力,與模型規模無關。因此,新的結果對此前大語言模型中出現的小樣本學習的原理進行了補充。 研究人員認為:Transformers 的成功基于其在前向傳遞中實現 mesa 優化算法的架構偏差:(i) 定義內部學習目標,以及 (ii) 對其進行優化。

84b8731a-5ad6-11ee-939d-92fbcf53809c.png

圖 1:新假設的說明:優化自回歸 Transformer fθ 的權重 θ 會產生在模型前向傳播中實現的 mesa 優化算法。作為輸入序列 s_1, . 。。, s_t 被處理到時間步 t,Transformer (i) 創建一個由輸入 - 目標關聯對組成的內部訓練集,(ii) 通過結果數據集定義內部目標函數,用于衡量內部模型的性能 使用權重 W,(iii) 優化該目標并使用學習的模型生成未來的預測84c44136-5ad6-11ee-939d-92fbcf53809c.jpg 該研究的貢獻包括:
  • 概括了 von Oswald 等人的理論,并展示了從理論上,Transformers 是如何通過使用基于梯度的方法優化內部構建的目標來自回歸預測序列下一個元素的。
  • 通過實驗對在簡單序列建模任務上訓練的 Transformer 進行了逆向工程,并發現強有力的證據表明它們的前向傳遞實現了兩步算法:(i) 早期自注意力層通過分組和復制標記構建內部訓練數據集,因此隱式地構建內部訓練數據集。定義內部目標函數,(ii) 更深層次優化這些目標以生成預測。
  • 與 LLM 類似,實驗表明簡單的自回歸訓練模型也可以成為上下文學習者,而即時調整對于改善 LLM 的上下文學習至關重要,也可以提高特定環境中的表現。
  • 受發現注意力層試圖隱式優化內部目標函數的啟發,作者引入了 mesa 層,這是一種新型注意力層,可以有效地解決最小二乘優化問題,而不是僅采取單個梯度步驟來實現最優。實驗證明單個 mesa 層在簡單的順序任務上優于深度線性和 softmax 自注意力 Transformer,同時提供更多的可解釋性。

84cfd366-5ad6-11ee-939d-92fbcf53809c.png

  • 在初步的語言建模實驗后發現,用 mesa 層替換標準的自注意力層獲得了有希望的結果,證明了該層具有強大的上下文學習能力。
基于最近人們的工作表明,經過明確訓練來解決上下文中的小樣本任務的 transformer 可以實現梯度下降(GD)算法。在這里,作者展示了這些結果可以推廣到自回歸序列建模 —— 這是訓練 LLM 的典型方法。 首先分析在簡單線性動力學上訓練的 transformer,其中每個序列由不同的 W* 生成 - 以防止跨序列記憶。在這個簡單的設置中,作者展示了 transformer 創建 mesa 數據集,然后使用預處理的 GD 優化 mesa 目標。

84e1e7b8-5ad6-11ee-939d-92fbcf53809c.png

該研究在聚合相鄰序列元素的 token 結構上訓練深度 transformer。有趣的是,這種簡單的預處理會產生極其稀疏的權重矩陣(只有不到 1% 的權重非零),從而產生逆向工程算法。

84ec4348-5ad6-11ee-939d-92fbcf53809c.png

對于單層線性自注意力,權重對應一個 GD 步驟。對于深度 transformer,可解釋性就變得困難。該研究依靠線性探測并檢查隱藏激活是否可以預測自回歸目標或預處理輸入。 有趣的是,兩種探測方法的可預測性都會隨著網絡深度的增加而逐漸提高。這一發現表明模型中隱藏著預處理的 GD。

84f767c8-5ad6-11ee-939d-92fbcf53809c.jpg

圖 2:對經過訓練的線性自注意力層進行逆向工程。 該研究發現,在構建中使用所有自由度時,可以完美地擬合訓練層,不僅包括學習的學習率 η,還包括一組學習的初始權重 W_0。重要的是,如圖 2 所示,學得的 one-step 算法的性能仍然遠遠優于單個 mesa 層。 我們可以注意到,在簡單的權重設置下,很容易通過基礎優化發現,該層可以最優地解決此處研究的任務。該結果證明了硬編碼歸納偏差有利于 mesa 優化的優勢。 憑借對多層案例的理論見解,先分析深度線性和 softmax 僅注意 Transformer。作者根據 4 通道結構設置輸入格式,8500f400-5ad6-11ee-939d-92fbcf53809c.jpg,這對應于選擇 W_0 = 0。

與單層模型一樣,作者在訓練模型的權重中看到了清晰的結構。作為第一個逆向工程分析,該研究利用這個結構并構建一個算法(RevAlg-d,其中 d 表示層數),每個層頭包含 16 個參數(而不是 3200 個)。作者發現這種壓縮但復雜的表達式可以描述經過訓練的模型。特別是,它允許以幾乎無損的方式在實際 Transformer 和 RevAlg-d 權重之間進行插值。 雖然 RevAlg-d 表達式解釋了具有少量自由參數的經過訓練的多層 Transformer,但很難將其解釋為 mesa 優化算法。因此,作者采用線性回歸探測分析(Alain & Bengio,2017;Akyürek et al.,2023)來尋找假設的 mesa 優化算法的特征。 在圖 3 所示的深度線性自注意力 Transformer 上,我們可以看到兩個探針都可以線性解碼,解碼性能隨著序列長度和網絡深度的增加而增加。因此,基礎優化發現了一種混合算法,該算法在原始 mesa-objective Lt (W) 的基礎上逐層下降,同時改進 mesa 優化問題的條件數。這導致 mesa-objective Lt (W) 快速下降。此外可以看到性能隨著深度的增加而顯著提高。 因此可以認為自回歸 mesa-objective Lt (W) 的快速下降是通過對更好的預處理數據進行逐步(跨層)mesa 優化來實現的。

850de534-5ad6-11ee-939d-92fbcf53809c.png

圖 3:對構建的 token 輸入進行逆向工程的多層 Transformer 訓練。 這表明,如果 transformer 在構建的 token 上進行訓練,它就會通過 mesa 優化進行預測。有趣的是,當直接給出序列元素時,transformer 會自行通過對元素進行分組來構造 token,研究團隊將其稱為「創建 mesa 數據集」。

851cacfe-5ad6-11ee-939d-92fbcf53809c.png

結論 該研究表明,當在標準自回歸目標下針對序列預測任務進行訓練時,Transformer 模型能夠開發基于梯度的推理算法。因此,在多任務、元學習設置下獲得的最新結果也可以轉化到傳統的自監督 LLM 訓練設置中。 此外,該研究還發現學得的自回歸推理算法可以在無需重新訓練的情況下重新調整用途,以解決有監督的上下文學習任務,從而在單個統一框架內解釋結果。

852a2d52-5ad6-11ee-939d-92fbcf53809c.png

那么,這些與上下文學習(in-context learning)有什么關系呢?該研究認為:在自回歸序列任務上訓練 transformer 后,它實現了適當的 mesa 優化,因此可以進行少樣本(few-shot)上下文學習,而無需任何微調。

853b08c0-5ad6-11ee-939d-92fbcf53809c.png

該研究假設 LLM 也存在 mesa 優化,從而提高了其上下文學習能力。有趣的是,該研究還觀察到,為 LLM 有效調整 prompt 也可以帶來上下文學習能力的實質性改進。

85443fee-5ad6-11ee-939d-92fbcf53809c.png

855238ce-5ad6-11ee-939d-92fbcf53809c.png

感興趣的讀者可以閱讀論文原文,了解更多研究內容。 參考內容:https://www.reddit.com/r/MachineLearning/comments/16jc2su/r_uncovering_mesaoptimization_algorithms_in/https://twitter.com/oswaldjoh/status/1701873029100241241

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265295
  • 深度學習
    +關注

    關注

    73

    文章

    5598

    瀏覽量

    124396
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    12285
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6937
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5179

原文標題:Transformer的上下文學習能力是哪來的?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer 入門:從零理解 AI 大模型的核心原理

    詞。 erlang 體驗AI代碼助手 代碼解讀 復制代碼 輸入:\"今天天氣真\" ↓ [Transformer 魔法盒子] ↓ 輸出:\"\" (概率 85
    發表于 02-10 16:33

    NVIDIA BlueField-4為推理上下文記憶存儲平臺提供強大支持

    隨著代理式 AI 工作流將上下文窗口擴展到數百萬個 token,并將模型規模擴展到數百萬億個參數,AI 原生企業正面臨著越來越多的擴展挑戰。這些系統目前依賴于智能體長期記憶來存儲跨多輪、工具和會話持續保存的上下文,以便智能體能夠基于先前的推理進行構建,而不是每次請求都從頭
    的頭像 發表于 02-02 10:29 ?1006次閱讀
    NVIDIA BlueField-4為推理<b class='flag-5'>上下文</b>記憶存儲平臺提供強大支持

    Transformer如何讓自動駕駛大模型獲得思考能力

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer在自動駕駛行業一直被提及?
    的頭像 發表于 02-01 09:15 ?4156次閱讀

    深入解析NVIDIA Nemotron 3系列開放模型

    這一全新開放模型系列引入了開放的混合 Mamba-Transformer MoE 架構,使多智能體系統能夠進行快速長上下文推理。
    的頭像 發表于 12-24 10:34 ?4044次閱讀
    深入解析NVIDIA Nemotron 3系列開放模型

    大語言模型如何處理上下文窗口中的輸入

    本博客介紹了五個基本概念,闡述了大語言模型如何處理上下文窗口中的輸入。通過明確的例子和實踐中獲得的見解,本文介紹了多個與上下文窗口有關的基本概念,如詞元化、序列長度和注意力等。
    的頭像 發表于 12-03 13:48 ?592次閱讀
    大語言模型如何處理<b class='flag-5'>上下文</b>窗口中的輸入

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯起來。
    的頭像 發表于 11-19 18:17 ?2270次閱讀

    請問riscv中斷還需要軟件保存上下文和恢復嗎?

    以下是我拷貝的文檔里的說明,這個中斷處理還需要軟件來寫上下文保存和恢復,在使用ARM核的單片機都不需要考慮這些的,使用過的小伙伴能解答嗎? 3.8. 進出中斷的上下文保存和恢復 RISC-V架構
    發表于 10-20 09:56

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    徹底改變了自然語義處理的研究和應用。它引入了自注意機制和位置編碼,能夠有效的捕捉輸入序列中的關聯信息,實現更好的上下文理解和建模。 Transformer 模型由一個編碼器和一個解碼器組成,是一種
    發表于 09-12 17:30

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代深度<b class='flag-5'>學習</b>嗎?

    鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無法在EntryAbility中無法使用最新版

    摘要:隨著鴻蒙系統API升級至16版本(modelVersion5.1.1),多項API已廢棄。獲取上下文需使用UIContext,具體方法包括:在組件中使用getUIContext(),在類中使
    的頭像 發表于 07-01 10:57 ?779次閱讀
    鴻蒙NEXT-API19獲取<b class='flag-5'>上下文</b>,在class中和ability中獲取<b class='flag-5'>上下文</b>,API遷移示例-解決無法在EntryAbility中無法使用最新版

    Transformer架構中編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的
    的頭像 發表于 06-10 14:27 ?1062次閱讀
    <b class='flag-5'>Transformer</b>架構中編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1286次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    快手上線鴻蒙應用高性能解決方案:數據反序列化性能提升90%

    近日,快手在Gitee平臺上線了鴻蒙應用性能優化解決方案“QuickTransformer”,該方案針對鴻蒙應用開發中廣泛使用的三方庫“class-transformer”進行了深度優化,有效提升
    發表于 05-15 10:01

    如何應對邊緣設備上部署GenAI的挑戰

    過去十年間,人工智能(AI)和機器學習(ML)領域發生了巨大的變化。卷積神經網絡(CNN)和循環神經網絡(RNN)逐漸被Transformer和生成式人工智能(GenAI)所取代,這標志著該領域進入了一個全新的發展階段。這一轉變源于人們需要更準確、高效且具備
    的頭像 發表于 04-30 13:48 ?1149次閱讀
    如何應對邊緣設備上部署GenAI的挑戰

    S32K在AUTOSAR中使用CAT1 ISR,是否需要執行上下文切換?

    如果我們在 AUTOSAR 中使用 CAT1 ISR,是否需要執行上下文切換?另外,是否需要返回指令才能跳回到作系統?您有沒有帶有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    發表于 03-27 07:34