国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

人工智能引發的圖像分類算法

454398 ? 來源:賽靈思 ? 作者:Quenton Hall ? 2020-11-16 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Quenton Hall,賽靈思公司工業、視覺、醫療及科學市場的 AI 系統架構師

在上一篇文章中,我們簡要介紹了更高層次的問題,這些問題為優化加速器的需求奠定了基礎。作為一個尖銳的問題提醒,現在讓我們通過一個非常簡單的圖像分類算法,來看一看與之相關聯的計算成本與功耗。

利用 Mark Horowitz 提供的數據點,我們可以考慮圖像分類器在不同空間限制下的相對功耗。雖然您會注意到 Mark 的能耗估計是針對 45nm 節點的,但業界專家建議,這些數據點將繼續按當前的半導體工藝尺寸進行調整。也就是說,無論工藝尺寸是 45nm 還是 16nm,與 FP32 運算相比,INT8 運算的能量成本仍然低一個數量級。

人工智能引發能源問題,我們該怎么辦?
數據來源:Bill Dally(斯坦福),Cadence 嵌入式神經網絡峰會,2017 年 2 月 1 日

功耗可按以下方式進行計算:

功耗 = 能量(J)/運算*運算/s

從這個等式中我們可以看出,只有兩種方法能夠降低功耗:要么減少執行特定運算所需的功耗,要么減少運算的次數,或者一起減少。

對于我們的圖像分類器,我們將選擇ResNet50作為一個目標。ResNet 提供了近乎最先進的圖像分類性能,同時與眾多具有類似性能的可比網絡相比,它所需的參數(權重)更少,這便是它的另一大優勢。

為了部署 ResNet50,我們每次推斷必須大約 77 億運算的算力。這意味著,對于每一幅我們想要分類的圖像,我們將產生 7.7 * 10E9 的“計算成本”。

現在,讓我們考慮一個相對高容量的推斷應用,在該應用中,我們可能希望每秒對 1000 幅圖像進行分類。堅持沿用 Mark 的 45nm 能量估算,我們得出以下結論:

功耗 = 4pJ + 0.4pJ/運算*7.7B運算/圖像 * 1000圖像/s

= 33.88W

作為創新的第一維度,我們可以將網絡從 FP32 量化到 8 位整數運算。這將功耗降低了一個數量級以上。雖然在訓練期間 FP32 的精度有利于反向傳輸,但它在像素數據的推斷時間幾乎沒有創造價值。大量研究和論文已經表明,在眾多應用中,可以分析每一層的權重分布并對該分布進行量化,同時將預量化的預測精度保持在非常合理的范圍內。

此外,量化研究還表明,8 位整數值對于像素數據來說是很好的“通用”解決方案,并且對于典型網絡的許多內層,可以將其量化到 3-4 位,而在預測精度上損失最小。由 Michaela Blott 領導的賽靈思研究實驗室團隊多年來一直致力于二進制神經網絡 (BNN) 的研究與部署,并取得了一些令人矚目的成果。(如需了解更多信息,請查看 FINN 和 PYNQ)

如今,我們與DNNDK的重點是將網絡推斷量化至 INT8。現代賽靈思 FPGA 中的單個 DSP 片可以在單個時鐘周期內計算兩個 8 位乘法運算,這并非巧合。在 16nm UltraScale+ MPSoC 器件系列中,我們擁有超過 15 種不同的器件變型,從數百個 DSP 片擴展到數千個 DSP 片,同時保持應用和/OS 兼容性。16nm DSP 片的最大 fCLK 峰值為 891MHz。因此,中型 MPSoC 器件是功能強大的計算加速器。

現在,讓我們考慮一下從 FP32 遷移到 INT8 的數學含義:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像*1000圖像/s

= 1.771W

Mark 在演講中,提出了一個解決計算效率問題的方法,那就是使用專門構建的專用加速器。他的觀點適用于機器學習推斷。

上述分析沒有考慮到的是,我們還將看到 FP32 的外部 DDR 流量至少減少四倍。正如您可能預料到的那樣,與外部存儲器訪問相關的功耗成本比內部存儲器高得多,這也是事實。如果我們簡單地利用 Mark 的數據點,我們會發現訪問 DRAM 的能量成本大約是 1.3-2.6nJ,而訪問 L1 存儲器的能量成本可能是 10-100pJ。看起來,與訪問內部存儲器(如賽靈思 SoC 中發現的 BlockRAM 和 UltraRAM)的能量成本相比,外部 DRAM 訪問的能量成本至少高出一個數量級。

除了量化所提供的優勢以外,我們還可以使用網絡剪枝技術來減少推斷所需的計算工作負載。使用賽靈思Vitis AI 優化器工具,可以將在 ILSCVR2012(ImageNet 1000 類)上訓練的圖像分類模型的計算工作負載減少 30-40%,精度損失不到 1%。再者,如果我們減少預測類的數量,我們可以進一步增加這些性能提升。現實情況是,大多數現實中的圖像分類網絡都是在有限數量的類別上進行訓練的,這使得超出這種水印的剪枝成為可能。作為參考,我們其中一個經過剪枝的 VGG-SSD 實現方案在四個類別上進行訓練,需要 17 個 GOP(與原始網絡需要 117 個 GOP 相比),在精度上沒有損失!誰說 VGG 沒有內存效率?

然而,如果我們簡單地假設我們在 ILSCVR2012 上訓練我們的分類器,我們發現我們通常可以通過剪枝減少大約 30% 的計算工作負載。考慮到這一點,我們得出以下結論:

功耗 = 0.2pJ+0.03pJ/運算*7.7B運算/圖像0.7*1000圖像/s

= 1.2397W

將此值與 FP32 推斷的原始估計值 33.88W 進行比較。

雖然這種分析沒有考慮到多種變量(混合因素),但顯然存在一個重要的優化機會。因此,當我們繼續尋找遙遙無期的“解決計算飽和的靈丹妙藥”時,考慮一下吳恩達斷言“AI 是新電能”的背景。我認為他并不是在建議 AI 需要更多的電能,只是想表明 AI 具有極高的價值和巨大的影響力。所以,讓我們對 ML 推斷保持冷靜的頭腦。對待機器學習推斷應保持冷靜思考,既不必貿然跟風,也無需針對高性能推斷設計采用液態冷卻散熱。

在本文的第三篇中我們還將就專門構建的“高效”神經網絡模型的使用以及如何在賽靈思應用中利用它們來實現更大的效率增益進行討論。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • dsp
    dsp
    +關注

    關注

    561

    文章

    8244

    瀏覽量

    366613
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107754
  • AI
    AI
    +關注

    關注

    91

    文章

    39768

    瀏覽量

    301370
  • 半導體工藝
    +關注

    關注

    19

    文章

    108

    瀏覽量

    26956
  • MPSoC
    +關注

    關注

    0

    文章

    203

    瀏覽量

    25173
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    淺談人工智能(2)

    接前文《淺談人工智能(1)》。 (5)什么是弱人工智能、強人工智能以及超人工智能? 弱人工智能(Weak AI),也稱限制領域
    的頭像 發表于 02-22 08:24 ?115次閱讀
    淺談<b class='flag-5'>人工智能</b>(2)

    開發智能體配置-內容合規

    智能體上架前,需完成“人工智能生成合成內容標識”和“大模型備案信息”填寫 ,以供平臺審核;可在智能體【配置】-【內容合規】中填寫。 人工智能生成合成內容標識 “
    發表于 02-07 11:44

    應用案例 | Enclustra 水星Mercury+ XU1核心板將邊緣人工智能送入衛星軌道

    KlepsydraTechnologies致力于實現衛星搭載的高效人工智能推理功能——例如支持基于圖像的實時地理定位。Klepsydra與Enclustra合作,將人工智能框架與緊湊型FPGA硬件
    的頭像 發表于 12-12 08:33 ?541次閱讀
    應用案例 | Enclustra 水星Mercury+ XU1核心板將邊緣<b class='flag-5'>人工智能</b>送入衛星軌道

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先進的邊緣設備上進行人工智能處理。在這篇博文中,我們將介紹這對開發人員意味著什么,以及使用 Neuton 模型如何改進您的開發和終端
    發表于 08-31 20:54

    迅為iTOP-RK3568人工智能開發板mobilenet圖像分類模型推理測試

    想快速驗證MobileNet圖像分類模型的實際運行效果?迅為iTOP-RK3568人工智能開發板,讓模型推理測試高效又省心。
    的頭像 發表于 08-28 15:53 ?1430次閱讀
    迅為iTOP-RK3568<b class='flag-5'>人工智能</b>開發板mobilenet<b class='flag-5'>圖像</b><b class='flag-5'>分類</b>模型推理測試

    人工智能+”,走老路難賺到新錢

    昨天的“人工智能+”刷屏了,這算是官方第一次對“人工智能+”這個名稱定性吧?今年年初到現在,涌現出了一大批基于人工智能的創業者,這已經算是AI2.0時代的第三波創業潮了,第一波是基礎大模型,第二波
    的頭像 發表于 08-27 13:21 ?722次閱讀
    “<b class='flag-5'>人工智能</b>+”,走老路難賺到新錢

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    的深度學習,構建起從基礎到前沿的完整知識體系,一門實驗箱就能滿足多門課程的學習實踐需求,既節省經費又不占地 。 五、代碼全開源,學習底層算法 所有實驗全部開源,這對于想要深入學習人工智能技術的人來說
    發表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    的深度學習,構建起從基礎到前沿的完整知識體系,一門實驗箱就能滿足多門課程的學習實踐需求,既節省經費又不占地 。 五、代碼全開源,學習底層算法 所有實驗全部開源,這對于想要深入學習人工智能技術的人來說
    發表于 08-07 14:23

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能

    迅為RK3588開發板Linux安卓麒麟瑞芯微國產工業AI人工智能
    發表于 07-14 11:23

    最新人工智能硬件培訓AI 基礎入門學習課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發展的當下,無論是探索未來職業方向,還是更新技術儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學術研究的智能工具,大模型正在工作生活
    發表于 07-04 11:10

    維智科技為什么提出時空人工智能

    在AI技術突飛猛進的今天,語言、圖像和語音的智能能力不斷突破,但一個更本質的問題逐漸顯現:人工智能真的理解我們所處的空間世界嗎?從智能城市到商業選址,從應急調度到人機交互,AI正走向“
    的頭像 發表于 06-12 14:30 ?910次閱讀

    谷東智能亮相2025深圳國際人工智能展覽會

    近日,以 “智聯萬物·端啟未來” 為主題的 2025 全球人工智能終端展暨第六屆深圳國際人工智能展盛大開幕。這場人工智能領域的盛會匯聚了眾多國內外領軍企業,展示了人工智能終端技術的最新
    的頭像 發表于 05-26 17:11 ?2300次閱讀

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網,WiFi,USB 擴展/重力感應/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發表于 04-23 10:55

    支持實時物體識別的視覺人工智能微處理器RZ/V2MA數據手冊

    DRP-AI 采用了一種由動態可重構處理器(DRP)和 AI-MAC組成的人工智能加速器,該加速器可加速人工智能推理,實現高速的人工智能推理和低功耗,無需散熱器或散熱風扇就能進行實時圖像
    的頭像 發表于 03-18 18:12 ?916次閱讀
    支持實時物體識別的視覺<b class='flag-5'>人工智能</b>微處理器RZ/V2MA數據手冊

    人工智能對智慧園區的提升和幫助

    ,進一步提升了智慧園區的運營效率、安全性和用戶體驗,為園區的可持續發展提供了強有力的支持。以下是人工智能對智慧園區的提升和幫助的具體體現。 1.提升運營效率 人工智能通過自動化技術和智能算法,顯著提高了智慧園區的運
    的頭像 發表于 03-13 14:39 ?1028次閱讀