国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解析Roofline模型實踐

Linux閱碼場 ? 來源:面包板社區 ? 作者:Linux閱碼場 ? 2021-04-28 16:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在多核異構的時代,軟件人員普遍面臨的一個困惑是,面對如此復雜的系統,應該如何部署我們的算法,是應該讓它運行在CPUGPU還是甚至類似TPU的專門ASIC上才是最佳方案?另外給定特定的計算平臺,我們的算法實現是不是已經榨干硬件平臺的最大能力,還有沒有進一步改善的空間?這些問題尋尋覓覓答案,真像霧里看花,我們渴望有一雙慧眼,幫我們穿透迷津。

在衡量計算效能的正確姿勢我們提到了內存帶寬(memory bandiwidth)和以FLOPS為代表的算力是可以很好的刻畫計算平臺的兩個指標。同時既然是要衡量算法的性能自然我們也要考慮算法的特性。基于此,論文《Roofline: An Insightful Visual Performance Model for Floating-Point Programs and Multicore Architectures》提出了Roofline模型,試圖對硬件和軟件通盤考慮,從而提出改善性能的洞見。

這里我們試著解釋如下,首先我們要介紹運算強度(arithmetic intensity,簡寫成AI)的概念,指的是針對單位內存讀寫數據進行的運算次數,以FLOP/Byte為單位。比如衡量計算效能的正確姿勢(2)介紹過的SAXPY,每次迭代,有三次內存訪問(x讀一次,y讀寫各一次),而有兩次浮點運算(乘加各一次),所以其AI為(2 * N) / (3 * N * 4) = 1/6。

int N = 1 《《 22;

void saxpy(float a, float *x, float *y){

for (int i = 0; i 《 N; ++i)

y[i] = a*x[i] + y[i];

}

引進AI后,算力FLOPS就可以用以下公式來計算。

e6fcb8b8-a7f7-11eb-9728-12bb97331649.png

兩邊取對數,

e7379988-a7f7-11eb-9728-12bb97331649.png

以logFLOPS為Y,logAI為X,我們可以得到斜截式 Y = X + logBW,另對特定平臺,算力FLOPS存在極限值,據此我們可以作如下圖。

e7486da8-a7f7-11eb-9728-12bb97331649.png

圖中紫色的線條是不是很類似屋脊線,這正是該模型命名的由來。以脊點為界,左邊區域構成內存帶寬瓶頸區域,右邊區域對應算力瓶頸區域。已知某算法的AI,其最大可獲取FLOPS很容易計算得到,見如下公式,為AI所在豎直線與Roofline的交點。如算法Algo1的AI處于內存帶寬受限區域,而算法Algo2的AI則位于算力受限區域,如果Algo1和Algo2為同一問題兩種算法方案,顯然Alg2更有機會獲取滿意的FLOPS。

e77db544-a7f7-11eb-9728-12bb97331649.png

上面公式代表了理想化的情形,實際操作中,存在各種各樣的天花板(Ceiling)障礙,算法優化的過程就是反復突破這些障礙而盡量接近roofline,最后得到理想的性能。如下圖過程展示,介紹如何通過改善算法的數據局部性以充分利用Cache,并通過向量化而調用SIMD硬件資源來達到這一目的。

e7a00b3a-a7f7-11eb-9728-12bb97331649.png

除了上面介紹的Roofline模型能夠讓我們在特定平臺“紙上談兵”改善算法性能,Roofline也可以可視化同一算法部署在不同平臺時候性能的比較,結果讓人一目了然。在Google的有關TPU(TPU是Google開發的專門用于神經網絡算法加速的芯片)的論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》里,作者利用Roofline圖表來比較各種神經網絡算法分別部署在同時代CPU、GPU和TPU的性能差異,令人印象深刻。五角星、三角形、圓形分別代表對應算法在TPU、GPU和CPU上運行狀況。

e8b3005e-a7f7-11eb-9728-12bb97331649.png

需要指出的是,Roofline模型在實踐中并不像想象般容易,運用的時候有很多細微的地方需要仔細推敲。但它仍不失為非常insightful的尋寶圖,如果你能學會正確解讀,它完全有機會幫我們找到算法性能優化的巨大寶藏。以后我們會有很多場合涉及它的理念和具體用法,敬請期待。
編輯:lyn

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • asic
    +關注

    關注

    34

    文章

    1274

    瀏覽量

    124601
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11279

    瀏覽量

    225024
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98076

原文標題:Roofline模型初步

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    百度正式發布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數的輕量架構,在全球權威文檔解析評測榜單 OmniDocBench V
    的頭像 發表于 01-30 10:03 ?598次閱讀
    百度正式發布并開源新一代文檔<b class='flag-5'>解析</b><b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    醫療后勤應急保障大模型智能調度系統:功能特點與平臺架構解析

    ? ? 醫療后勤應急保障大模型智能調度系統技術解析 ? ?北京華盛恒輝醫療后勤應急保障大模型智能調度系統,融合大數據、人工智能、物聯網等前沿技術,聚焦醫療應急物資、設備、人員等資源的實時感知、智能
    的頭像 發表于 12-23 15:57 ?212次閱讀

    模型驅動的星間鏈路動態組網分系統:功能特點與平臺架構解析

    模型賦能的星間鏈路動態組網分系統技術解析 ? ?北京華盛恒輝大模型驅動的星間鏈路動態組網分系統,融合人工智能大模型與衛星通信核心技術,聚焦衛星間動態智能組網及通信鏈路優化,核心優勢在
    的頭像 發表于 12-23 14:52 ?245次閱讀

    基于大模型ai的地面測控站網調度分系統:功能特點與平臺架構解析

    ? ? 大模型AI驅動的地面測控站網調度分系統:航天智能化核心技術解析 ? ?北京華盛恒輝大模型AI驅動的地面測控站網調度分系統作為航天領域智能化轉型的關鍵支撐,大模型AI驅動的地面測
    的頭像 發表于 12-19 15:13 ?332次閱讀

    模型支撐后勤保障方案生成系統:功能特點與平臺架構解析

    ? ? 大模型支撐后勤保障方案生成系統:功能特點與平臺架構解析 ? ?大模型支撐后勤保障方案生成系統憑借智能預測、動態調度、路徑優化、庫存管理及可視化展示等核心能力,為后勤保障方案生成系統提供關鍵
    的頭像 發表于 12-17 15:49 ?325次閱讀

    模型賦能物資需求精準預測與采購系統:功能特點與平臺架構解析

    ? ? 大模型賦能物資需求預測與采購智能化:核心功能與價值解析 ? ?大模型賦能物資需求精準預測與采購系統通過深度整合多源數據、構建動態預測模型及優化采購策略,可大幅提升物資需求預測精
    的頭像 發表于 12-16 11:54 ?304次閱讀

    后勤資源大模型智能調度系統:功能特點與平臺架構解析

    ? ? 后勤資源大模型智能調度系統解析 ? ?后勤資源大模型智能調度系統融合大數據、人工智能與機器學習技術,針對物資、設備、人員、運輸工具等后勤資源,通過實時感知、智能決策與動態優化,實現資源合理
    的頭像 發表于 12-15 16:35 ?312次閱讀

    深度解析 | 低抖動高精度EtherCAT多軸控制的實現與實踐案例

    深度解析 | 低抖動高精度EtherCAT多軸控制的實現與實踐案例 在工業自動化領域,運動控制的精度和穩定性直接決定了生產效率和產品質量。其中EtherCAT多軸控制技術尤為引人注目。今天,我們
    發表于 12-09 17:17

    NVMe高速傳輸之擺脫XDMA設計27: 橋設備模型設計

    Switch 上游虛擬 PCI 橋。 此外還包含一個 TYPE1 類型的配置空間封裝類, 用來模擬配置空間寄存器組。 模型的每個端口的輸入端對接一個 TLP事務處理程序, 該程序負責將接收到的 TLP 事務進行解析和路由轉發。
    發表于 09-18 09:11

    模型工具的 “京東答案”

    成為現代職場人提升價值產出的關鍵競爭力。大模型工具的發展現狀如何?有哪些落地的業務實踐?大模型工具建設的未來藍圖是什么?圍繞這些問題,京東內部開展了一場大模型工具的探索
    的頭像 發表于 08-25 16:09 ?573次閱讀

    AIcube1.4目標檢測模型導入yolotxt格式數據集后一直顯示數據正在解析,為什么?

    AIcube1.4目標檢測模型導入yolotxt格式數據集后一直顯示數據正在解析 數據有問題,把數據情況說的詳細點
    發表于 08-13 07:16

    cubemx導入模型后找不到keil找不到工程內的模型的相關文件是怎么回事?

    模型在cubemx內解析后沒有問題,但解析之后生成工程keil內缺讀取不到生成的三個模型文件
    發表于 07-18 07:18

    千方科技大模型技術在交通運輸領域的應用實踐

    2025年,全國交通運輸工作會議明確提出實施“人工智能+交通運輸”行動,推動交通基礎設施數字化升級。近期,千方科技作為行業標桿企業,受邀參與交通運輸部管理干部學院主辦的“DeepSeek在交通運輸管理中的應用專題研討班”,分享大模型技術在交通運輸領域的應用實踐
    的頭像 發表于 05-22 09:23 ?1045次閱讀

    NVIDIA使用Qwen3系列模型的最佳實踐

    阿里巴巴近期發布了其開源的混合推理大語言模型 (LLM) 通義千問 Qwen3,此次 Qwen3 開源模型系列包含兩款混合專家模型 (MoE),235B-A22B(總參數 2,350 億,激活參數
    的頭像 發表于 05-08 11:45 ?2999次閱讀
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳<b class='flag-5'>實踐</b>

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分模型
    的頭像 發表于 03-17 15:32 ?8858次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細<b class='flag-5'>解析</b>