国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

離散化架構WAGE,訓練推理合二為一

DPVg_AI_era ? 來源:未知 ? 作者:胡薇 ? 2018-05-20 11:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

圖 1 吳雙(左側)和李國齊(右側)- 被錄用文章的兩位作者

清華大學類腦計算研究中心博士生吳雙的論文被 ICLR2018 收錄并在會上做口頭報告。迄今為止,這是中國作為第一署名單位里唯一一篇被 ICLR 會議收錄的口頭報告文章。該報告主要探討如何實現對全離散化深度神經網絡進行訓練和推理,便于部署到嵌入式設備中。

ICLR 是深度學習領域的頂會,更被譽為深度學習的“無冕之王”,得到了 google, Facebook, DeepMind, Amazon,IBM 等眾多高科技公司的高度關注和參與。ICLR2018 于當地時間 2018 年 4 月 30 日在加拿大溫哥華會展中心召開,為期 4 天。本次大會的主席是深度學習領域三巨頭中的 Yoshua Bengio(蒙特利爾大學)和 Yann LeCun (紐約大學 & Facebook),本次大會收到一千多篇投稿文章,其中僅有 23 篇被收錄為本次會議的口頭報告文章。

吳雙同學的報告題目為 “Training and Inference with Integers in Deep Neural Networks”。

離散化架構 WAGE,訓練推理合二為一

該報告主要探討如何實現對全離散化深度神經網絡進行訓練和推理,便于部署到嵌入式設備中。

在深度學習領域,高精度意味著大面積、高功耗,從而導致高成本,這背離了嵌入式設備的需求,因此硬件加速器和神經形態芯片往往采用低精度的硬件實現方式。在低精度的算法研究方面,之前的工作主要集中在對前向推理網絡的權重值和激活值的縮減,使之可以部署在硬件加速器和神經形態芯片上;而網絡的訓練還是借助于高精度浮點實現(GPU)。這種訓練和推理的分離模式往往導致需要耗費大量的額外精力,對訓練好的浮點網絡進行低精度轉換,這不僅嚴重影響了神經網絡的應用部署,更限制了在應用端的在線改善。

為應對這種情況,本文提出了一種聯合的離散化架構 WAGE,首次實現了將離散化神經網絡的反向訓練過程和前向推理合二為一。具體來說就是將網絡權重、激活值、反向誤差、權重梯度用全用低精度整形數表達,在網絡訓練時去掉難以量化的操作及操作數(比如批歸一化等),從而實現整個訓練流程全部用整數完成。

在數據集實測中,WAGE 的離散化方法能夠有效的提高測試精度。由于該方法能夠同時滿足深度學習加速器和神經形態芯片的低功耗和反向訓練需求,更使之具備高效地在線學習的能力,對未來多場景、多目標的可遷移、可持續學習的人工智能應用將大有裨益。

WAGE框架將訓練和推理中的所有層中的權重( weights ,W),激活值( activations ,A),梯度( gradients ,G)和誤差( errors ,E)限制為低位整數。首先,對于操作數,應用線性映射和方向保持移位來實現三元權重,用于激活和梯度累加的8位整數。其次,對于操作,批歸一化由一個常數因子取代。用于微調的其他技術(如具有動量和L2正則化的SGD優化器)可以簡化或放棄,性能的下降很小。考慮到整體雙向傳播,我們完全簡化了累積比較周期的推理,并分別訓練到具有對齊操作的低位乘法累加(MAC)周期。

所提出的框架在MNIST,CIFAR10,SVHN,ImageNet數據集上進行評估。相對于只在推理時離散權重和激活的框架,WAGE具有可比的準確性,并且可以進一步減輕過擬合。WAGE為DNN生成純粹的雙向低精度整數數據流,可以將其用于專門硬件的訓練和推理。我們在GitHub上發布了代碼。

圖1

圖2:WAGE的量化方法

實現細節

MNIST:采用LeNet-5的一個變體。WAGE中的學習率η在整個100個epochs中保持為1。我們報告了測試集上10次運行的平均準確度。

SVHN&CIFAR10:錯誤率的評估方式與MNIST相同。

ImageNet:使用AlexNe模型在ILSVRC12數據集上評估WAGE框架。

表1:WAGE及其他方法在多個數據集上的測試或驗證錯誤率(%)

圖3:訓練曲線

結論和未來工作

這項工作的目標是展示在DNN中應用低位整數訓練和推理的潛力。與FP16相比,8-bit整數運算不僅會降低IC設計的能耗和面積成本(約5倍,見Table 5),還會減少訓練期間內存訪問成本和內存大小要求,這將大大有利于具有現場學習能力的的移動設備。這個工作中有一些沒有涉及到的點,未來的算法開發和硬件部署還有待改進或解決。

表5

WAGE使DNN的純低位整數數據流進行訓練和推理得以實現。我們引入一種新的初始化方法和分層常數比例因子來取代批歸一化,這是網絡量化的一個難點。此外,還探討了誤差計算和梯度累積的位寬要求。實驗表明,我們可以量化梯度的相對值,并且在反向傳播中丟棄大多數小值及其數量級。雖然為了穩定收斂和最終的精度,權重更新的積累是必不可少的,但仍然可以在訓練中進一步減少壓縮和內存消耗。WAGE在多個數據集實現了最高精度。通過微調、更有效的映射、批歸一化等量化方法,對增量工作有一定的應用前景。總而言之,我們提出了一個沒有浮點表示的框架,并展示了在基于整數的輕量級ASIC或具有現場學習能力的FPGA上實現離散訓練和推理的潛力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107753
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135431

原文標題:ICLR oral:清華提出離散化架構WAGE,神經網絡訓練推理合二為一

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器學習的第階段:推理

    我們之前討論過,訓練過程是機器學習的第階段,而推理則緊隨其后,機器學習的第階段。在訓練階段
    發表于 06-28 16:03 ?6590次閱讀

    文了解Arm神經超級采樣 (Arm Neural Super Sampling, Arm NSS) 深入探索架構訓練推理

    本文將從訓練、網絡架構到后處理和推理等方面,深入探討 Arm 神經超級采樣 (Arm Neural Super Sampling, Arm NSS) 的工作原理,希望機器學習 (ML
    的頭像 發表于 08-14 16:11 ?3034次閱讀

    步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    性能,加速模型的訓練推理過程。 2. 生成式 AI 解決方案 與英偉達 Grace CPU、新代網絡芯片等產品起,面向生成式 AI 共同組成完整解決方案,
    發表于 05-13 17:16

    YOLOv5類中rgb888p_size這個參數要與模型推理訓練的尺寸致嗎?致會達到更好的效果?

    YOLOv5類中rgb888p_size這個參數要與模型推理訓練的尺寸致嗎,致會達到更好的效果
    發表于 03-11 08:12

    在Ubuntu20.04系統中訓練神經網絡模型的些經驗

    本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型的些經驗。我們采用jupyter notebook作為開發IDE,以TensorFlow2訓練框架,目標是
    發表于 10-22 07:03

    如何把兩個電路合二為一

    大家好求助 本人做了兩個arduino回路。 word 里面,左邊的是控制電機左右轉動的。右邊是通過滑動變阻器控制電機轉速的。 想把兩個電路合二為一。 程序上的編寫 請給位給予建議
    發表于 08-23 05:55

    模擬技術與數字技術怎樣才能合二為一 電子資料

    模擬技術與數字技術怎樣才能合二為一,還是數字技術替代模擬技術?作為般應用的話,的確可以區分開模擬和數字系統。但是在尖端領域,你很難區分他們的。比如,高速數字電路板要考慮的敷銅阻抗和信號反射問題。
    發表于 04-21 06:14

    如何用PyArmNN加速樹莓派上的ML推理

    NN推理引擎構建個示例應用程序,將圖像分類火或非火。 本指南使用Raspberry Pi 3或4設備。樹莓派設備是由Arm CPU驅動的 霓虹燈的架構。Neon是針對Arm處理器
    發表于 08-02 15:40

    Android和iPhone完美融合,魯大師發布魯蛋數據線將接口合二為一

    日前,魯大師智能硬件推出了款魯蛋數據線,號稱真正做到了蘋果lightning和安卓Micro接口合二為一
    發表于 12-06 10:52 ?1791次閱讀

    高通發布Wi-Fi或將5G和Wi-Fi合二為一

    高通發布多款Wi-Fi 6芯片,5G和Wi-Fi將合二為一
    的頭像 發表于 08-28 08:59 ?4322次閱讀

    汽車的電動與智能正在合二為一 電動車的下波“進化”會在哪?

    汽車的電動與智能正在合二為一,電動的普及需要靠智能來拉動,而智能的最佳載體正是電動
    的頭像 發表于 06-13 14:59 ?1490次閱讀

    深度學習框架區分訓練還是推理

    深度學習框架區分訓練還是推理嗎 深度學習框架是個非常重要的技術,它們能夠加速深度學習的開發與部署過程。在深度學習中,我們通常需要進行兩個關鍵的任務,即訓練
    的頭像 發表于 08-17 16:03 ?2326次閱讀

    提升銷量,理想汽車或將零售和交付部合二為一

    據了解,自4月份以來,理想汽車已經啟動了2.0版本的矩陣式組織結構升級,對部分部門進行了結構性調整。其中項重要改變就是將零售與交付部門合二為一,進步細化分工,其目的無疑是增加銷量。
    的頭像 發表于 06-04 14:21 ?1214次閱讀

    壁仞科技支持DeepSeek-V3滿血版訓練推理

    DeepSeek在開源周開源了部分關鍵模塊的代碼及推理系統參考架構,再次引發行業震動,但目前尚未開源DeepSeek-V3 滿血版完整訓練代碼。壁仞科技憑借八大自主創新技術,實現
    的頭像 發表于 03-04 14:01 ?2205次閱讀

    陣列云從訓練推理

    在云場景下,陣列云(分布式計算集群)從模型訓練推理的完整技術流程可結構化分解如下: 訓練階段技術實現 1,資源動態編排? 基于Kubernetes集群或云廠商彈性計算服務(如AW
    的頭像 發表于 03-28 08:32 ?664次閱讀