国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

無殘差連接或歸一化層,也能成功訓練深度Transformer

深度學習自然語言處理 ? 來源:機器之心 ? 作者:機器之心 ? 2022-12-12 13:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

盡管取得了很多顯著的成就,但訓練深度神經網絡(DNN)的實踐進展在很大程度上獨立于理論依據。大多數成功的現代 DNN 依賴殘差連接和歸一化層的特定排列,但如何在新架構中使用這些組件的一般原則仍然未知,并且它們在現有架構中的作用也依然未能完全搞清楚。

殘差架構是最流行和成功的,最初是在卷積神經網絡(CNN)的背景下開發的,后來自注意力網絡中產生了無處不在的 transformer 架構。殘差架構之所以取得成功,一種原因是與普通 DNN 相比具有更好的信號傳播能力,其中信號傳播指的是幾何信息通過 DNN 層的傳輸,并由內核函數表示。

最近,使用信號傳播原則來訓練更深度的 DNN 并且殘差架構中沒有殘差連接和 / 或歸一化層的參與,成為了社區感興趣的領域。原因有兩個:首先驗證了殘差架構有效性的信號傳播假設,從而闡明對 DNN 可解釋性的理解;其次這可能會實現超越殘差范式的 DNN 可訓練性的一般原則和方法。

對于 CNN,Xiao et al. (2018)的工作表明,通過更好初始化提升的信號傳播能夠高效地訓練普通深度網絡,盡管與殘差網絡比速度顯著降低。Martens et al. (2021) 的工作提出了 Deep Kernel Shaping (DKS),使用激活函數轉換來控制信號傳播,使用 K-FAC 等強二階優化器在 ImageNet 上實現了普通網絡和殘差網絡的訓練速度相等。Zhang et al. (2022) 的工作將 DKS 擴展到了更大類的激活函數,在泛化方面也實現了接近相等。

信號傳播中需要分析的關鍵量是 DNN 的初始化時間內核,或者更準確地說,是無限寬度限制下的近似內核。對于多層感知機(MLP)以及使用 Delta 初始化的 CNN,該內核可以編寫為僅包含 2D 函數的簡單層遞歸,以便于進行直接分析。跨層 transformer 的內核演化更加復雜,因此 DKS 等現有方法不適用 transformer 或實際上任何包含自注意力層的架構。

在 MLP 中,信號傳播是通過查看(一維)內核的行為來判斷的,而 transformer 中的信號傳播可以通過查看(高維)內核矩陣在網絡層中的演化來判斷。

該研究必須避免一種情況:對角線元素隨深度增加快速增長或收縮,這與不受控制的激活范數有關,可能導致飽和損失或數值問題。避免秩崩潰(rank collapse)對于深度 transformer 的可訓練性是必要的,而是否可以訓練深度無殘差 transformer 仍是一個懸而未決的問題。

ICLR 2023 盲審階段的這篇論文解決了這個問題,首次證明了無需殘差連接或歸一化層時也可能成功訓練深度 transformer。為此,他們研究了深度無殘差 transformer 中的信號傳播和秩崩潰問題,并推導出三種方法來阻止它們。

具體而言,方法中使用了以下組合:參數初始化、偏置矩陣和位置相關的重縮放,并強調了 transformer 中信號傳播特有的幾種復雜性,包括與位置編碼和因果掩蔽的交互。研究者實證證明了他們的方法可以生成可訓練的深度無殘差 transformer。

在實驗部分,在 WikiText-103 和 C4 數據集上,研究者展示了使用他們主要的方法——指數信號保持注意力(Exponential Signal Preserving Attention, E-SPA),可以通過延長大約五倍的訓練時間使得標準 transformer 與文中無殘差 transformer 的訓練損失相當。此外通過將這一方法與殘差連接結合,研究者還表明無歸一化層的 transformer 能夠實現與標準 transformer 相當的訓練速度。

cf2d7700-79d2-11ed-8abf-dac502259ad0.png

論文鏈接:

https://openreview.net/pdf?id=NPrsUQgMjKK

對于這篇論文,Google AI 首席工程師 Rohan Anil 認為是 Transformer 架構向前邁出的一大步,還是一個基礎性的改進。

cf3f3d5a-79d2-11ed-8abf-dac502259ad0.jpg

構造無捷徑可訓練的深層Transformer

迄今為止,糾正 Transformer 秩崩潰(rank collapse)的唯一策略依賴于殘差連接,該方式跳過了自注意力層固有的可訓練性問題。與此相反,該研究直接解決這個問題。首先通過注意力層更好地理解信號傳播,然后根據見解(insights)進行修改,以在深度 transformer 中實現對忠實信號的傳輸,無論是否使用殘差連接,都可以對信號進行訓練。

具體而言,首先,該研究對僅存在注意力的深度 vanilla transformer 進行了一下簡單設置,之后他們假設該 transformer 具有單一頭(h = 1)設置或具有多頭設置,其中注意力矩陣 A 在不同頭之間不會變化。如果塊 l≤L 初始化時有注意力矩陣 A_l,則最終塊的表示形式為 X_L:

cf607bbe-79d2-11ed-8abf-dac502259ad0.png

對于上式而言,如果cf6fdf1e-79d2-11ed-8abf-dac502259ad0.pngcf7ef5f8-79d2-11ed-8abf-dac502259ad0.png采用正交初始化,那么cf8dee50-79d2-11ed-8abf-dac502259ad0.png就可以在初始化時正交。

在上述假設下,如果采用cf9c6f2a-79d2-11ed-8abf-dac502259ad0.png表示跨位置輸入核矩陣,經過一些簡化處理后,可以得到如下公式:

cfae2058-79d2-11ed-8abf-dac502259ad0.png

從這個簡化公式(深度僅注意力 transformer 中的核矩陣)中,可以確定對 (A_l)_l 的三個要求:

cfbe6300-79d2-11ed-8abf-dac502259ad0.png

必須在每個塊中表現良好,避免退化情況,如秩崩潰和爆炸 / 消失的對角線值;

A_l 必須是元素非負 ?l;

A_l 應該是下三角?l,以便與因果掩碼注意力兼容。

在接下來的 3.1 和 3.2 節中,該研究專注于尋找滿足上述需求的注意力矩陣,他們提出了 3 種方法 E-SPA、U-SPA 和 Value-Skipinit,每種方法都用來控制 transformer 的注意力矩陣,即使在很深的深度也能實現忠實的信號傳播。此外,3.3 節演示了如何修改 softmax 注意力以實現這些注意力矩陣。

下圖中,該研究對提出的兩個 SPA 方案進行了驗證,U-SPA 和 E-SPA,結果顯示即使在網絡較深時也能成功地避免僅注意力 vanilla transformers 中的秩崩潰現象。

cfd238bc-79d2-11ed-8abf-dac502259ad0.png

實驗

WikiText-103 基線:首先,該研究驗證了沒有殘差連接的標準深度 transformer 是不可訓練的,即使它們有歸一化層 (LN) 和 transformed 激活,但本文的方法可以解決這個問題。如圖 2 所示,可以清楚地看到,從標準 transformer 中移除殘差連接使其不可訓練,訓練損失穩定在 7.5 左右。正如圖 1 所示,標準 transformer 遭受了秩崩潰。

cffcdd74-79d2-11ed-8abf-dac502259ad0.png

另一方面,該研究提出的 E-SPA 方法優于 U-SPA 和 Value-Skipinit。然而,與本文無殘差方法相比,帶有殘差和 LN 的默認 transformer 仍然保持訓練速度優勢。

在表 1 中,該研究使用提出的方法評估了 MLP 塊中不同激活函數的影響,以及 LN 在無殘差 transformer 的使用。可以看到在深度為 36 處,本文方法針對一系列激活實現了良好的訓練性能:DKS-transformed GeLU、TAT-transformed Leaky ReLU 以及 untransformed GeLU ,但不是 untransformed Sigmoid。

通過實驗還看到,層歸一化對于訓練速度而言相對不重要,甚至在使用 SPA 時對 transformed activation 的激活有害,因為 SPA 已經具有控制激活規范的內置機制。

d01b3ba2-79d2-11ed-8abf-dac502259ad0.png

在圖 3 中,我們看到一種不需要更多迭代就能匹配默認 transformer 訓練損失的方法是使用歸一化殘差連接。

d02dbec6-79d2-11ed-8abf-dac502259ad0.png

表 2 顯示帶有歸一化殘差和 LN 的 E-SPA 優于默認的 PreLN transformer。

d03faa1e-79d2-11ed-8abf-dac502259ad0.png

下圖 4(a)表明 E-SPA 再次優于其他方法;4(b)表明訓練損失差距可以通過簡單地增加訓練時間來消除。

d0544e06-79d2-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107756
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6937
  • dnn
    dnn
    +關注

    關注

    0

    文章

    61

    瀏覽量

    9499

原文標題:首次!無殘差連接或歸一化層,也能成功訓練深度Transformer

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer 入門:從零理解 AI 大模型的核心原理

    Normalization) Transformer 使用的是歸一化,它在每一層對數據進行標準: 計算步驟 ini 體驗AI代碼助手
    發表于 02-10 16:33

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    直是行業痛點。課程提供獨家開發的labview調用框架,實現從模型訓練(Python)到部署(LabVIEW)的無縫銜接,已成功應用于DIP、AOI、鋰電池產線的視覺檢測工位。 二、職業發展: 目前
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    直是行業痛點。課程提供獨家開發的labview調用框架,實現從模型訓練(Python)到部署(LabVIEW)的無縫銜接,已成功應用于DIP、AOI、鋰電池產線的視覺檢測工位。 二、職業發展: 目前
    發表于 12-03 13:50

    構建CNN網絡模型并優化的一般化建議

    的尺寸不宜過大,3*3或者1*1等小尺寸的卷積核(濾波器)對于實現輕量級模型是十分必要的。 3)添加歸一化和驗證檢查點:歸一化可以調整模型的概率分布得到標準化分布,從而提升迭代和
    發表于 10-28 08:02

    在Ubuntu20.04系統中訓練神經網絡模型的些經驗

    , batch_size=512, epochs=20)總結 這個核心算法中的卷積神經網絡結構和訓練過程,是用來對MNIST手寫數字圖像進行分類的。模型將圖像作為輸入,通過卷積和池提取圖像的特征,然后通過全
    發表于 10-22 07:03

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    Transformer 模型的后繼者 二、用創新方法實現深度學習AI芯片 1、基于開源RISC-V的AI加速器 RISC-V是種開源、模塊的指令集架構(ISA)。優勢如下: ①模
    發表于 09-12 17:30

    基于瑞芯微RK3576的resnet50訓練部署教程

    堆疊得到的,但當網絡堆疊到深度時,就會出現退化問題。網絡的特點是容易優化,并且能夠通過增加相當的深度來提高準確率。其內部的
    的頭像 發表于 09-10 11:19 ?1321次閱讀
    基于瑞芯微RK3576的resnet50<b class='flag-5'>訓練</b>部署教程

    TFT液晶顯示屏為什么會顯示影、如何解決

    TFT液晶屏(Thin-Film Transistor Liquid Crystal Display)顯示影(稱為圖像殘留)是個涉及物理和電子原理的現象。 、為什么工業TFT液
    發表于 09-08 09:04

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中<b class='flag-5'>Transformer</b>大模型會取代<b class='flag-5'>深度</b>學習嗎?

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    深度讓我明白追求極致性能需要在諸多矛盾中找到精妙的平衡點。 四、Transformer 中的 MoE Transformer 中的 MoE 部分,呈現了模塊創新帶來的機遇與困境。
    發表于 07-20 15:07

    NVMe高速傳輸之擺脫XDMA設計之七:系統初始

    直接采用PCIe實現NVMe功能,它的系統初始流程主要分為鏈路訓練、PCIe 初始和 NVMe 初始, 分別實現 PCIe鏈路連接
    發表于 07-04 09:14

    Transformer架構中解碼器的工作流程

    解碼器的作用主要是制作文本序列。與編碼器類似,解碼器配備了組類似的子。它具有兩個Multi-Head attention個點前饋
    的頭像 發表于 06-10 14:32 ?1213次閱讀
    <b class='flag-5'>Transformer</b>架構中解碼器的工作流程

    為什么屏蔽要“單端接地”

    的電容耦合部分衰減,但無法形成閉合的低阻抗路徑,屏蔽效果遠弱于接地狀態。 可能成為“天線” : 未接地的屏蔽可能因長度和頻率形成諧振結構,像天線樣接收輻射電磁波,反而放大干
    發表于 04-10 14:55

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了不行,ram占用過大,有無解決方案?
    發表于 03-11 07:18

    如何排除深度學習工作臺上量化OpenVINO?的特定

    無法確定如何排除要在深度學習工作臺上量化OpenVINO?特定
    發表于 03-06 07:31