国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習的最大短板原來是它!

SSDFans ? 來源:YXQ ? 2019-06-17 09:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

上文用簡單的小學數學算了一下Alexnet的參數說需要的內存空間,但對于運行的神經網絡,還有一個運行時的資源的問題。在github上的convnet-burden上有一個feature memory[1]的概念,這個和輸入的圖片的大小和運算的batch的size 都有關。

因此,Nvida的GPU上的HBM和GDDR對于大部分神經網絡的煉丹師都是非常重要,能夠在一個GPU的內存里完成模型的運算而不用考慮換進換出是大有裨益的。

總體來說,這個統計還是很直觀的[2],就是網絡模型越復雜,參數的規模越大,資源的占用也就越多,對GPU的整體內存占用也是越多。因此如何在有限的GPU上完成模型的訓練也成了一個非常有用的技巧。

在我們考慮計算對于內存帶寬的需求之前,我們需要復習一下作為一個神經網絡,每一層對于計算的需求,這個還是可以用小學數學搞定的東西。還是用標準的Alexnet為例。

對于計算來講,卷積層應該是主要,對于Pooling來講,應該是沒有的,對于FC來講,也是比較簡單的。基本上是乘法.

Conv Layer的計算復雜度:

1. 當前的層的圖片的width

2. 當前的層的圖片的height

3.上一層的深度

4。當前層的深度

5. 當前kernel的大小

的乘積就是這一層卷積的計算復雜度。以Alexnet的conv1為例:

Conv-1:第一層的卷積有96個kernel。kernel的大小是11X11,卷積的stride是4,padding是0

當前的輸出的是55X55,上一層的input的深度是3, 當前的kernel是11X11,當前的深度是96.因此

55X55X3X11X11X96=105,415,200次MAC的計算。

對于Alexnet來講,需要注意的是conv2,4 ,5三個層的計算沒有和上一層直接跨GPU,因此需要的計算規模上/2.

對于FC來講,比較粗略的計算就是 輸入和當前層的規模的乘積。

MaxPool-3:第五層卷積的最大值,Pooling是3X3, stride是2,

FC-1:第一個全連接層,有4096個神經元

因此FC-1 的計算就是:

6X6X256X4096=37,748,736

因此,總結一下之前的參數信息和計算量, Alexnet的圖如下:

這個通過統計每一層的計算的復雜度,就可以得到整個網絡的計算復雜度,也就是訓練一次網絡需要多少的MACC資源。對于alexnet 來講就是:724,406,816 次操作。

這個時候,有一個關鍵的信息就出來了。就是芯片的能力,大家都是用TFLOPs來表示芯片的浮點處理能力。對于Nvida的芯片,有了TFLOPS,有個一個網絡需要的計算量,我們就可以很快計算出每一層計算需要的時間了。

對于Alexnet 的conv1 來講,在Nivida 最新的V100的120TFLOPs的GPU上,進行訓練的執行時間差不多是105,415,200X2/(120X1,000,000,000,000), 約等于1.75us (微秒)。

對于Pooling這一層來講,因為沒有MACC的計算量,但是因為要Max Pooling,也需要大小比較的計算。因此,它的計算基本就是算是數據讀取。因此它的數據讀取是 conv-1 的55X55X96=290,440. 因此在同樣的GPU下,它的執行時間就是 2.42ns.

好了,有了計算時間,現在需要來計算數據量了。對于Conv1來講,它包含了對一下數據的讀寫:

對于輸入數據的讀取 227X227X3 =154,587

對于輸出數據的寫入55x55x96=290,400

對于參數的讀取34848+96=34944

因此,就可以算出對于120TFLOP的GPU的要求:因為在很多ASIC芯片中,輸入輸出可能在DDR中,但是參數可能放在SRAM中,因此我們就分開計算了。

對于輸入數據的讀取 (154,587/1.75)X1000,000X4=351.95GB/s

對于輸出數據的寫入 (290,400/1.75)X1000,000X4=661.16GB/s

對于參數的讀取 (34944 /1.75)X1,000,000X4=79.34GB/s

提個醒,我們現在的PC服務器上性能最高的DDR4的帶寬基本上在19GB/s左右。看到壓力了吧。現在的memory連很慢的CPU都跟不上。更何況老黃家的核彈。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109759
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124400

原文標題:芯片架構師終于證明:深度學習的最大短板原來是它!

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    人工智能與機器學習在這些行業的深度應用

    自人工智能和機器學習問世以來,多個在線領域的數字化格局迎來了翻天覆地的變化。這些技術從誕生之初就為企業賦予了競爭優勢,而在線行業正是受其影響最為顯著的領域。人工智能(AI)與機器學習(ML)的深度應用,徹底重塑了整個行業的發展模
    的頭像 發表于 02-04 14:44 ?484次閱讀

    機器學習深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注數據、模型架構
    的頭像 發表于 01-07 15:37 ?197次閱讀
    機器<b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    穿孔機頂頭檢測儀 機器視覺深度學習

    LX01Z-DG626穿孔機頂頭檢測儀采用深度學習技術,能夠實現頂頭狀態的在線實時檢測,頂頭丟失報警,頂頭異常狀態報警等功能,響應迅速,異常狀態視頻回溯,檢測頂頭溫度,配備吹掃清潔系統,維護周期長
    發表于 12-22 14:33

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-03 13:50

    如何深度學習機器視覺的應用場景

    深度學習視覺應用場景大全 工業制造領域 復雜缺陷檢測:處理傳統算法難以描述的非標準化缺陷模式 非標產品分類:對形狀、顏色、紋理多變的產品進行智能分類 外觀質量評估:基于學習的外觀質量標準判定 精密
    的頭像 發表于 11-27 10:19 ?223次閱讀

    如何在機器視覺中部署深度學習神經網絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經常會出現“神經網絡”、“黑箱”、“標注”等術語。這些概
    的頭像 發表于 09-10 17:38 ?902次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經網絡

    深度學習對工業物聯網有哪些幫助

    深度學習作為人工智能的核心分支,通過模擬人腦神經網絡的層級結構,能夠自動從海量工業數據中提取復雜特征,為工業物聯網(IIoT)提供了從數據感知到智能決策的全鏈路升級能力。以下從技術賦能、場景突破
    的頭像 發表于 08-20 14:56 ?1030次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4186次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    深度學習遇上嵌入式資源困境,特征空間如何破局?

    近年來,隨著人工智能(AI)技術的迅猛發展,深度學習(Deep Learning)成為最熱門的研究領域之一。在語音識別、圖像識別、自然語言處理等領域,深度學習取得了顯著成果。從原理上看
    發表于 07-14 14:50 ?1243次閱讀
    當<b class='flag-5'>深度</b><b class='flag-5'>學習</b>遇上嵌入式資源困境,特征空間如何破局?

    嵌入式AI技術之深度學習:數據樣本預處理過程中使用合適的特征變換對深度學習的意義

    ? 作者:蘇勇Andrew 使用神經網絡實現機器學習,網絡的每個層都將對輸入的數據做一次抽象,多層神經網絡構成深度學習的框架,可以深度理解數據中所要表示的規律。從原理上看,使用
    的頭像 發表于 04-02 18:21 ?1521次閱讀

    用樹莓派搞深度學習?TensorFlow啟動!

    介紹本頁面將指導您在搭載64位Bullseye操作系統的RaspberryPi4上安裝TensorFlow。TensorFlow是一個專為深度學習開發的大型軟件庫,消耗大量資源。您可以在
    的頭像 發表于 03-25 09:33 ?1211次閱讀
    用樹莓派搞<b class='flag-5'>深度</b><b class='flag-5'>學習</b>?TensorFlow啟動!