国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺析歸納偏置對模型縮放的影響

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 作者:智能感知與物聯網 ? 2022-09-05 15:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌、DeepMind:以 Transformer 為例,淺析歸納偏置對模型縮放的影響。

Transformer 模型的縮放近年來引發了眾多學者的研究興趣。然而,對于模型架構所施加的不同歸納偏置的縮放性質,人們了解得并不多。通常假設,在特定標度(計算、大小等)的改進可以遷移到不同的規模和計算區域。

不過,理解架構和標度律之間的相互作用至關重要,設計在不同標度上表現良好的模型具有重要的研究意義。有幾個問題還需要搞清楚:模型體系架構之間的縮放性不同嗎?如果是這樣,歸納偏置如何影響縮放表現?又如何影響上游(預訓練)和下游(遷移)任務?

在最近的一篇論文中,谷歌的研究者試圖了解歸納偏置(體系架構)對語言模型標度律的影響。為此,研究者在多個計算區域和范圍內(從 1500 萬到 400 億參數)預訓練和微調了十種不同的模型架構。總體來說,他們預訓練和微調了 100 多種不同體系架構和大小的模型,并提出了在縮放這十種不同體系架構方面的見解和挑戰。

9346d5ca-2c5b-11ed-ba43-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2207.10551.pdf

他們還注意到,縮放這些模型并不像看起來那么簡單,也就是說,縮放的復雜細節與本文中詳細研究的體系架構選擇交織在一起。例如,Universal Transformers (和 ALBERT) 的一個特性是參數共享。與標準的 Transformer 相比,這種體系架構的選擇不僅在性能方面,而且在計算指標如 FLOPs、速度和參數量方面顯著 warp 了縮放行為。相反,像 Switch Transformers 這樣的模型則截然不同,它的 FLOPs 和參數量之間的關系是不尋常的。

具體來說,本文的主要貢獻如下:

首次推導出不同歸納偏置和模型架構的標度律。研究者發現這個標度系數在不同的模型中有很大的不同,并指出這是模型開發中的一個重要考慮因素。事實證明,在他們考慮的所有十種體系架構中,普通的 Transformer 擁有最好的縮放性能,即使它在每個計算區域的絕對性能不是最好的。

研究者觀察到,在一個計算標度區域中運行良好的模型不一定是另一個計算標度區域中的最佳模型。此外,他們發現,某些模型盡管在低計算區域表現良好 ,但是難以進行縮放。這意味著很難通過在某個計算區域進行逐點對比來獲得模型縮放性的全貌。

研究者發現,當涉及到縮放不同的模型架構時,上游預訓練的困惑度可能與下游遷移不太相關。因此,底層架構和歸納偏置對于下游遷移也是至關重要的。

研究者強調了在某些架構下進行縮放的困難,并展示了一些模型沒有進行縮放(或以消極趨勢進行縮放)。他們還發現線性時間注意力模型(比如 Performer)難以進行擴展的趨勢。

方法與實驗

在論文的第三章,研究者概述了整體的實驗設置,并介紹了實驗中評估的模型。

下表 1 展示了本文的主要結果,包括可訓練參數量、FLOPs(單次正向傳遞)和速度(每秒步數)等,此外還包括了驗證困惑度(上游預訓練)和 17 個下游任務的結果。

93612452-2c5b-11ed-ba43-dac502259ad0.png

所有模型的縮放方式是否相同?

下圖 2 展示了增加 FLOPs 數量時所有模型的縮放行為。可以觀察到,所有模型的縮放行為是相當獨特和不同的,即其中大多數不同于標準 Transformer。也許這里最大的發現是,大多數模型(例如 LConv、Evolution)似乎都與標準 Transformer 表現相當或更好,但無法按照更高的計算預算去縮放。

另一個有趣的趨勢是,「線性」Transformer,如 Performer,不能按比例縮放。如圖 2i 所示,從 base 到 large scale 相比,預訓練的困惑度只下降了 2.7% 。而對于 vanilla Transformer 來說這一數字是 8.4%。

93798bbe-2c5b-11ed-ba43-dac502259ad0.png

下圖 3 展示了下游遷移任務上所有模型的縮放曲線,可以發現,和 Transformer 相比,大多數模型有著不同的縮放曲線,在下游任務中變化明顯。值得注意的是,大多數模型都有不同的上游或下游縮放曲線。

研究者發現,一些模型如 Funnel Transformer 和 LConv,似乎在上游表現相當不錯,但在下游受到很大影響。至于 Performer,上游和下游的性能差距似乎更大。值得注意的是,SuperGLUE 的下游任務通常需要編碼器上的偽交叉注意力,而卷積這樣的模型是無法處理的(Tay et al., 2021a)。

因此,研究者發現盡管某些模型擁有良好的上游性能,但可能還是難以學習下游任務。

9392c76e-2c5b-11ed-ba43-dac502259ad0.png

每一標度的最佳模型是否有所不同?

下圖 1 展示了根據上游或下游性能進行計算時的帕累托邊界。圖的顏色代表不同的模型,可以觀察到,每個標度和計算區域的最佳模型可能是不同的。此外,從上圖 3 中也可以看到這一點。例如,Evolved Transformer 似乎在微小(tiny)到小(small)的區域(下游)和標準 Transformer 一樣表現很好,但是當放大模型時,這種情況迅速改變。研究者在 MoS-Transformer 也觀察到了這一點,它在某些區域的表現明顯優于普通的 Transformer ,但在其他區域則不然。

93bc863a-2c5b-11ed-ba43-dac502259ad0.png

每個模型的標度律

下表 2 給出了多種情況下每個模型的擬合線性直線 α 的斜率。研究者通過繪制 F(FLOPs)、U (上游困惑度)、D (下游準確率)和 P(參數量)得到了α。一般來說,α 描述了模型的縮放性,例如 α_F,U 根據上游性能繪制 FLOPs。唯一的例外是α_U,D,它是衡量上游和下游性能的度量,高的 α_U,D 值意味著向下游任務遷移的模型縮放更佳。總體來說,α 值是一個度量,表示一個模型在縮放上的相對表現。

93d69c0a-2c5b-11ed-ba43-dac502259ad0.png

Scaling Protocols 是否以同樣的方式影響模型體系架構?

下圖 4 展示了四個模型體系架構(MoS-Transformer、Transformer、Evolved Transformer、LConv)中縮放深度的影響。

93fdafc0-2c5b-11ed-ba43-dac502259ad0.png

下圖 5 展示了在相同的四個體系架構中縮放寬度的影響。首先,在上游(負對數困惑)曲線上可以注意到,雖然不同的架構在絕對性能上有明顯的差異,但縮放趨勢仍然非常相似。在下游,除了 LConv 之外,深度縮放(上圖 4)在大多數體系架構上的作用似乎是一樣的。同時,相對于寬度縮放,似乎 Evolved Transformer 在應用寬度縮放時會稍微好一點。值得注意的是,與寬度縮放相比,深度縮放對下游縮放的影響要大得多。

942e48f6-2c5b-11ed-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111407
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52111
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6937

原文標題:谷歌、DeepMind新研究:歸納偏置如何影響模型縮放?

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    MAX749:數字可調LCD偏置電源的卓越之選

    偏置電源芯片,它具有諸多出色的特性和功能,適用于多種電子設備。 文件下載: MAX749CSA+T.pdf 一、產品概述 MAX749能夠從2V至6V的輸入電壓產生負的LCD偏置對比度電壓,其滿量程輸出電壓可縮放至 -100V
    的頭像 發表于 12-28 15:25 ?637次閱讀

    輔助偏置電源啟動時序的精確驗證

    離線AC/DC電源的偏置電源電路設計至關重要,因為它們對電源啟動時序有影響。由于偏置電容是通過整流脈動直流電壓源以非常低的恒定電流進行充電的,因此這一過程需要相對較長的時間。在電容完成預充電且偏置
    的頭像 發表于 10-24 17:33 ?503次閱讀
    輔助<b class='flag-5'>偏置</b>電源啟動時序的精確驗證

    信號測試中的偏置現象分析與解決方案

    什么是直流偏置直流偏置現象是指在傳感器或電子設備中出現的不希望的直流成分。在無輸入的情況下,輸出具有一定的直流電壓,導致在加入輸入信號后,出現在輸出信號上疊加一定的直流偏置,直流偏置
    的頭像 發表于 10-15 13:44 ?726次閱讀
    信號測試中的<b class='flag-5'>偏置</b>現象分析與解決方案

    ANSA人體模型姿態調整工具的使用案例

    中國體征人體數字模型(AC-HUMs)是中國汽研主持研發的人體有限元模型。BETA CAE Systems與中國汽研保持緊密合作,前、后處理軟件(ANSA/META)會全面支持AC-HUMs系列模型。在軟件中提供對應工具用于人體
    的頭像 發表于 09-28 15:44 ?1208次閱讀
    ANSA人體<b class='flag-5'>模型</b>姿態調整工具的使用案例

    模型推理顯存和計算量估計方法研究

    、顯存估計方法 基于模型結構的顯存估計 根據深度學習模型的層次結構和參數數量,可以估算模型在推理過程中所需的顯存大小。具體方法如下: (1)統計模型中各層參數數量,包括權重和
    發表于 07-03 19:43

    同步電機失步淺析

    純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:同步電機失步淺析.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發表于 06-20 17:42

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發可以直接復用。 卡片配置文件:FA模型的卡片配置在config.json中
    發表于 06-06 08:10

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數據讀寫功能都包含客戶端和服務端兩部分。 FA
    發表于 06-04 07:53

    單片機項目實例:STM32上JPG_GIF圖片顯示并支持縮放

    單片機項目實例:STM32上JPG_GIF圖片顯示并支持縮放,推薦下載!
    發表于 06-03 22:10

    簡單認識阿倫尼烏斯壽命模型

    Arrhenius,阿倫尼烏斯,提出了一個表征芯片使用壽命的計算模型,即阿倫尼烏斯壽命模型。透過驗證晶體管在特定偏置電壓和溫度下的工作時長(HTOL),來折算出芯片的使用壽命。通過在汽車行業的統計觀察,阿倫尼烏斯壽命
    的頭像 發表于 05-19 09:34 ?2303次閱讀
    簡單認識阿倫尼烏斯壽命<b class='flag-5'>模型</b>

    模塊配線架的優點歸納

    模塊配線架作為網絡布線系統中的重要組件,具有多個顯著優點,以下是對其優點的全面歸納: 一、高度靈活性與可擴展性 模塊化設計:模塊配線架采用模塊化設計理念,每個端口或模塊都可以獨立安裝、拆卸和更換
    的頭像 發表于 05-12 10:11 ?604次閱讀

    阻燃耐火電線型號字母歸納

    阻燃耐火電線的型號字母表示通常涉及阻燃和耐火特性的標識,以下是對這些字母的詳細歸納: 阻燃特性標識 ZR:這是最常見的阻燃電線標識,表示電線具有阻燃特性。例如,ZR-YJV表示阻燃銅芯聚氯乙烯絕緣
    的頭像 發表于 05-09 10:31 ?9107次閱讀

    KaihongOS操作系統FA模型與Stage模型介紹

    FA模型與Stage模型介紹 KaihongOS操作系統中,FA模型(Feature Ability)和Stage模型是兩種不同的應用模型
    發表于 04-24 07:27

    HMC981LP3E有源偏置控制器技術手冊

    HMC981LP3E是一款有源偏置控制器,可自動調整外部放大器的柵極電壓,從而實現恒定的偏置電流。 它可用于為A級區(漏極電壓為4V至12V,漏極電流最大為200mA)的增強和耗盡型放大器提供合適的偏置,提供了完整的
    的頭像 發表于 03-21 15:55 ?909次閱讀
    HMC981LP3E有源<b class='flag-5'>偏置</b>控制器技術手冊

    HMC920LP5E有源偏置控制器,采用SMT封裝技術手冊

    HMC920LP5E是一款有源偏置控制器,可生成調節漏極電壓并主動調節外部放大器的柵極電壓,實現恒定偏置電流。 該器件可用來偏置任何工作在A類的增強型和耗盡型放大器,漏極電壓(VDRAIN)范圍為3V至15V,漏極電流(IDRA
    的頭像 發表于 03-21 15:26 ?1015次閱讀
    HMC920LP5E有源<b class='flag-5'>偏置</b>控制器,采用SMT封裝技術手冊