国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

卷積神經網絡能用INT4為啥要用INT8?

YCqV_FPGA_EETre ? 來源:FPGA開發圈 ? 2020-09-03 10:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1

性能挑戰

企業日益重視基于 AI 的系統在數據中心、汽車、工業和醫療等領域中的產品化。

這帶來了兩大挑戰:

AI 推斷需要完成的計算量成數量級增加,同時還要保持價格、功耗、時延和尺寸大小不變。 AI 科學家繼續日復一日地在算法和模型上開展創新,需要各種不同的硬件架構提供最佳性能。

2

方案概述

對于 AI 推斷,在提供與浮點媲美的精度的同時,int8 的性能優于浮點。然而在資源有限的前提下,int8 不能滿足性能要求,int4 優化是解決之道。通過 int4 優化,與現有的 int8 解決方案相比,賽靈思在實際硬件上可實現高達 77% 的性能提升。賽靈思4 位激活和 4 位權重 (4A4W) 全流程硬件友好型量化解決方案可實現更優異的精度/資源權衡取舍。

該白皮書介紹了在Zynq UltraScale+ MPSoC 和 Zynq-7000 SoC 系列(16nm和28nm)上面向CNN4位XDPU實現的低精度加速器。這種加速器通過高效地映射卷積計算,充分發揮其DSP功能。這種解決方案可提供優于XDPU兩倍的解決方案級性能。在ADAS系統中執行2D檢測任務時,這種實現方案能在ZynqUltraScale+MPSoCZCU102板上實現230fps的推斷速度,與8位XDPU相比性能提高1.52倍。

此外,在用于ADAS系統中的不同任務時,該解決方案可實現媲美全精度模型的結果。

3

技術導讀

對持續創新的強烈需求需要使用靈活應變的領域專用架構 (DSA)。優化 AI 推斷性能和降低功耗的主要趨勢之一是使用較低精度和混合精度。為降低硬件設計復雜性,模型量化被當作關鍵技術應用于各類硬件平臺。大量工作被投入用于最大限度地降低 CNN 運算量和存儲成本。這項研究充分地證明,對于大多數計算機視覺任務,在不嚴重犧牲精度的情況下,權重和激活可以用 int8 表達。

然而對于某些邊緣應用而言,硬件資源仍然不足。在對邊緣應用使用較低的位寬(如 1 位、2 位)時,一些常見的硬件設計解決方案使用簡化的乘法器。盡管這些解決方案時延低、吞吐量大,但它們與全精度模型相比,仍然存在較大的精度差距。因此,在模型精度和硬件性能之間尋求平衡變得至關重要。

賽靈思運用幾種常見的網絡結構(ResNet50V1、ResNet50V2 、MobilenetV1和MobilenetV2),在 ImageNet 分類任務上通過使用幾種不同的量化算法進行了實驗。結果顯示精度隨著位寬減少而下降。尤其是在位寬低于 4 時精度下降顯著。此外,賽靈思也使用 Williams 等介紹的 Roofline 模型,分析不同位寬下的硬件性能。

在ZCU102上以不同位寬運行Roofline模型

如圖 1 所示,以賽靈思 ZCU102 評估板為例,隨著 MAC 的精度降低,硬件成本降低,性能得到提高。此外,實驗結果還顯示,低比特量化可通過降低存儲器需求提高性能。這在 ResNet-50 神經網絡的卷積運算強度上得到證實。該網絡分別用 8 位精度和 4 位精度進行了運算。因此,int4 在模型精度和硬件性能之間實現了最佳權衡。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107823
  • AI
    AI
    +關注

    關注

    91

    文章

    39820

    瀏覽量

    301486
  • adas
    +關注

    關注

    311

    文章

    2330

    瀏覽量

    211946

原文標題:卷積神經網絡能用 INT4 為啥要用 INT8 ?- 最新白皮書下載

文章出處:【微信號:FPGA-EETrend,微信公眾號:FPGA開發圈】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中常提的卷積神經網絡是個啥?

    在自動駕駛領域,經常會聽到卷積神經網絡技術。卷積神經網絡,簡稱為CNN,是一種專門用來處理網格狀數據(比如圖像)的深度學習模型。CNN在圖像處理中尤其常見,因為圖像本身就可以看作是由像
    的頭像 發表于 11-19 18:15 ?2083次閱讀
    自動駕駛中常提的<b class='flag-5'>卷積</b><b class='flag-5'>神經網絡</b>是個啥?

    CNN卷積神經網絡設計原理及在MCU200T上仿真測試

    數的提出很大程度的解決了BP算法在優化深層神經網絡時的梯度耗散問題。當x&gt;0 時,梯度恒為1,無梯度耗散問題,收斂快;當x&lt;0 時,該層的輸出為0。 CNN
    發表于 10-29 07:49

    NMSIS神經網絡庫使用介紹

    :   神經網絡卷積函數   神經網絡激活函數   全連接層函數   神經網絡池化函數   Softmax 函數   神經網絡支持功能
    發表于 10-29 06:08

    卷積運算分析

    的數據,故設計了ConvUnit模塊實現單個感受域規模的卷積運算. 卷積運算:不同于數學當中提及到的卷積概念,CNN神經網絡中的卷積嚴格意義
    發表于 10-28 07:31

    AI算力模組TS-SG-SM9系列產品規格書

    騰視科技AI算力模組TS-SG-SM9系列搭載算能高集成度處理器CV186AH/BM1688片,功耗低、算力強、接口豐富、兼容性好。7.2-16TOPS INT8算力,兼容INT4/INT8
    發表于 10-27 17:12 ?0次下載

    從零開始利用NMSIS庫搭建神經網絡(一)

    環境:Vivado2021.1、NucleiStudio_IDE_202102-win64 內容:從零開始利用NMSIS庫搭建神經網絡,這一節主講基本的NMSIS庫卷積函數的解讀。 一、自測檢查
    發表于 10-24 13:47

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    構建卷積神經網絡模型 model = models.Sequential()model.add(layers.Conv2D(input_shape=(28, 28, 1), filters=4
    發表于 10-22 07:03

    小白必讀:到底什么是FP32、FP16、INT8

    網上關于算力的文章,如果提到某個芯片或某個智算中心的算力,都會寫:在FP32精度下,英偉達H100的算力大約為0.9PFlops。在FP16精度下,某智算中心的算力是6.7EFlops。在INT8
    的頭像 發表于 10-20 14:34 ?1309次閱讀
    小白必讀:到底什么是FP32、FP16、<b class='flag-5'>INT8</b>?

    CICC2033神經網絡部署相關操作

    讀取。接下來需要使用擴展指令,完成神經網絡的部署,此處僅對第一層卷積+池化的部署進行說明,其余層與之類似。 1.使用 Custom_Dtrans 指令,將權重數據、輸入數據導入硬件加速器內。對于權重
    發表于 10-20 08:00

    液態神經網絡(LNN):時間連續性與動態適應性的神經網絡

    1.算法簡介液態神經網絡(LiquidNeuralNetworks,LNN)是一種新型的神經網絡架構,其設計理念借鑒自生物神經系統,特別是秀麗隱桿線蟲的神經結構,盡管這種微生物的
    的頭像 發表于 09-28 10:03 ?1236次閱讀
    液態<b class='flag-5'>神經網絡</b>(LNN):時間連續性與動態適應性的<b class='flag-5'>神經網絡</b>

    卷積神經網絡如何監測皮帶堵料情況 #人工智能

    卷積神經網絡
    jf_60804796
    發布于 :2025年07月01日 17:08:42

    計算精度對比:FP64、FP32、FP16、TF32、BF16、int8

    、BF16、int8以及混合精度等。本文將淺顯易懂地介紹這些精度計算方式及其差別。什么是精度?精度,是數據表示的一個重要參數,它決定了數據的準確性。在計算機科學中,精
    的頭像 發表于 06-26 11:09 ?2840次閱讀
    計算精度對比:FP64、FP32、FP16、TF32、BF16、<b class='flag-5'>int8</b>

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進行推理時出現“從 __Int64 轉換為無符號 int 的錯誤”,怎么解決?

    /Meta-Llama-3.1-8B --weight-format int4 --sym --group-size 128 --ratio 1.0 INT4-llama-3.1-8B 使用 NPU 插件
    發表于 06-25 07:20

    為什么無法在GPU上使用INT8INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉換為 int 4int8,并在 GPU 上使用 OpenVINO? 運行推理。 沒有可用的
    發表于 06-23 07:11

    i.mx95的EIQ轉換器將int8更改為uint8后出現報錯怎么解決?

    我有一個大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。 我正在運行 eIQ 模型工具版本 1.14.0 將模型轉換為 i.MX95
    發表于 04-14 07:15