国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在推理引擎中去除TOPS的頂部

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Geoff Tate ? 2022-12-01 15:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

隨著 AI 的爆炸式增長,人們開始高度關注能夠提供 AI 所需性能的新型專用推理引擎。因此,在過去的六個月里,我們看到了一系列神經推理硬件的發布,所有這些都有望提供比市場上任何其他產品更好的加速。然而,挑戰在于沒有人真正知道如何從另一個衡量一個。這是一項新技術,像任何新技術一樣,我們需要指標,我們需要真正重要的指標。

一切都與吞吐量有關

當推理引擎的性能出現時,供應商會拋出基準測試,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等內容。研究這些數字的系統/芯片設計人員很快意識到這些數字通常毫無意義。真正重要的是推理引擎可以為模型、圖像大小、批量大小和過程以及 PVT(過程/電壓/溫度)條件提供多少吞吐量。這是衡量其性能的第一標準,但令人驚訝的是,很少有供應商提供它。

TOPS最大的問題是,當一家公司說他們的發動機做X TOPS時,他們通常會引用這個而不說明條件是什么。在不知道這些信息的情況下,他們錯誤地認為X TOPS意味著它可以執行X萬億次操作。實際上,報價 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一個正在使用但不太常見的基準測試是ResNet-50。這個基準的問題在于,大多數引用它的公司都沒有給出批量大小。當他們不提供這一點時,芯片設計人員可以假設這將是一個大批量大小,以最大限度地提高他們的硬件利用率百分比。這使得 ResNet-50 作為基準測試不是很有幫助。相比之下,例如,YOLOv3 需要 100 倍以上的操作來處理 200 萬像素的圖像。硬件利用率在“現實世界”模型上將面臨更大的挑戰。

如何正確測量神經推理引擎

在評估神經推理引擎時,有幾個關鍵事項需要考慮。以下是最重要的考慮因素以及它們真正重要的原因。

定義什么是操作:一些供應商將乘法(通常為 INT 8 乘以 INT 8)計為一個運算,將累加(加法,通常為 INT 32)計為一個運算。因此,單個乘法累加等于 2 個運算。但是,一些供應商在其TOPS規范中包含其他類型的操作,因此必須在開始時進行澄清。

詢問操作條件是什么:如果供應商在沒有提供條件的情況下給出 TOPS,他們通常使用室溫、標稱電壓和典型工藝。通常他們會提到他們指的是哪個工藝節點,但不同供應商的運行速度不同,大多數工藝都提供 2、3 或更高的標稱電壓。由于性能是頻率的函數,而頻率是電壓的函數,因此芯片設計人員在0.9V下可以獲得比0.6V時兩倍以上的性能。頻率因條件/假設而異。有關此方面的更多信息,請參閱本應用筆記。

查看批量大小:即使供應商提供了最壞情況的TOPS,芯片設計人員也需要弄清楚所有這些操作是否真的有助于計算他們的神經網絡模型。實際上,實際利用率可能非常低,因為沒有推理引擎始終對所有 MAC 具有 100% 的利用率。這就是為什么批量大小很重要的原因。批處理是為給定層加載權重并同時處理多個數據集。這樣做的原因是提高吞吐量,但放棄的是更長的延遲。ResNet-50 有超過 2000 萬個權重;YOLOv3 有超過 6000 萬個權重;并且必須獲取每個權重并將其加載到每個圖像的MAC結構中。有太多的權重,無法將它們全部駐留在 MAC 結構中。

查找您的 MAC 利用率:并非所有神經網絡的行為都相同。您需要以所需的批大小找出要部署的神經網絡模型的神經推理引擎的實際 MAC 利用率。

深入了解 TOPS

如果你是一個正在研究神經推理引擎的設計師,希望這篇文章能闡明要尋找什么。請記住,吞吐量才是最重要的。重要的是不要陷入無意義的基準測試,如TOPS和ResNet-50,除非你知道要問的事情。首先提出以下問題:在批量大小= A和XYZ PVT條件下,特定模型(例如YOLOv3)可以處理多少圖像/秒。一旦你開始指定條件和假設,你就會開始了解任何神經推理在現實世界中的表現。歸根結底,這才是最重要的。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    463

    文章

    54010

    瀏覽量

    466119
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107784
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301431
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    新品 | AI Pyramid AI Pyramid-Pro,面向本地推理與智能交互的高性能AI PC

    AIPyramid是一款金字塔形狀的高性能AIPC,專為本地AI推理與邊緣智能應用而生。內置AxeraAX8850SoC,集成八核Cortex-A55處理器與24TOPS@INT8NPU,輕松應對
    的頭像 發表于 02-06 17:24 ?3630次閱讀
    新品 | AI Pyramid AI Pyramid-Pro,面向本地<b class='flag-5'>推理</b>與智能交互的高性能AI PC

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發表于 01-19 15:33 ?493次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    QDPAK頂部散熱封裝簡介

    QDPAK頂部散熱器件是一種表貼器件產品。相對于傳統表貼產品只能從底部進行散熱的方式,頂部散熱器件分離了電氣路徑和熱流路徑,尤其適合在高功率密度的應用,如AI服務器電源和車載充電器等應用。而英飛凌
    的頭像 發表于 12-18 17:08 ?771次閱讀
    QDPAK<b class='flag-5'>頂部</b>散熱封裝簡介

    思必馳場景化推理AI重塑智能交互

    AI技術從“感知”走向“認知”的今天,推理能力正成為推動人工智能向更高階躍遷的核心引擎
    的頭像 發表于 12-12 11:31 ?744次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現已完成 OpenAI 最新開源推理模型 gpt-oss-20b DeepFusion 大模型一體機上的原生適配與優化,用戶可一鍵啟用這顆“小而強悍”的新引擎本地享受企
    的頭像 發表于 08-14 11:34 ?1408次閱讀

    積算科技上線赤兔推理引擎服務,創新解鎖FP8大模型算力

    的模型輕量化部署方案。用戶通過遠程算力平臺預置的模型鏡像與AI工具,僅需50%的GPU算力即可解鎖大模型推理、企業知識庫搭建、智能體開發,加速大模型智能問答、報告生成、客服助手、智能體等典型行業場景的落地。 ? 赤兔推理
    的頭像 發表于 07-30 21:44 ?911次閱讀

    基于米爾瑞芯微RK3576開發板部署運行TinyMaix:超輕量級推理框架

    本文將介紹基于米爾電子MYD-LR3576開發平臺部署超輕量級推理框架方案:TinyMaix 摘自優秀創作者-短笛君 TinyMaix 是面向單片機的超輕量級的神經網絡推理庫,即 TinyML
    發表于 07-25 16:35

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    模態的技術特性,DeepSeek正加速推動AI金融、政務、科研及網絡智能化等關鍵領域的深度應用。 信而泰:AI推理引擎賦能網絡智能診斷新范式信而泰深度整合DeepSeek-R1大模型系統,構建了新一代
    發表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發展,深度學習大模型各個領域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰。為了解決這一問題,本文將探討大模型推理顯存和計算量的估計
    發表于 07-03 19:43

    HarmonyOS實戰:Tab頂部滑動懸停功能實現

    日常開發過程中,遇到這種 Scroll 嵌套 List 列表滑動頂部懸停的場景十分常見,鴻蒙開發時也正好實現了這個功能,本篇文章將帶你一步步實現 Tab 頂部懸停的效果,建議點贊收藏!
    的頭像 發表于 06-24 17:07 ?451次閱讀

    芯原超低能耗NPU可為移動端大語言模型推理提供超40 TOPS算力

    芯原股份今日宣布其超低能耗且高性能的神經網絡處理器(NPU)IP現已支持移動端進行大語言模型(LLM)推理,AI算力可擴展至40 TOPS以上。該高能效NPU架構專為滿足移動平臺日益增長的生成式
    的頭像 發表于 06-11 10:47 ?872次閱讀

    6TOPS算力NPU加持!RK3588如何重塑8K顯示的邊緣計算新邊界

    ,RK3588都能快速解析復雜的8K視頻流。以交通監控為例,傳統設備處理8K分辨率的交通視頻時,往往難以實時識別車牌和行人動作,而RK3588憑借6TOPS的強大算力,不僅能夠實時解碼8K視頻,還能同步
    發表于 04-18 15:32

    谷歌新一代 TPU 芯片 Ironwood:助力大規模思考與推理的 AI 模型新引擎?

    Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項。 ? 核心亮點層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設計的 TPU 芯片,能夠有力支持大規模思考
    的頭像 發表于 04-12 00:57 ?3725次閱讀

    詳解 LLM 推理模型的現狀

    領域的最新研究進展,特別是自DeepSeekR1發布后興起的推理時間計算擴展相關內容。LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發表于 04-03 12:09 ?1615次閱讀
    詳解 LLM <b class='flag-5'>推理</b>模型的現狀

    OpenHarmony5.0系統怎么去除鎖屏直接進入界面?教你2步搞定

    本文介紹OpenHarmony5.0Release操作系統下,去除鎖屏開機后直接進入界面的方法。觸覺智能PurplePiOH鴻蒙開發板演示,搭載了瑞芯微RK3566四核處理器,1TOPS算力NPU
    的頭像 發表于 03-12 18:51 ?1152次閱讀
    OpenHarmony5.0系統怎么<b class='flag-5'>去除</b>鎖屏直接進入界面?教你2步搞定