国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習性能誰來評判?

璟琰乀 ? 來源:FPGA開發圈 ? 作者:FPGA開發圈 ? 2020-11-05 09:46 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本期導讀

MLPerf 組織最近發布了最新一輪機器學習性能測試結果,首次直接參加此次測試的“新力量” 賽靈思(Xilinx), 在最新 MLPerf 推斷基準測試中取得了“圖像分類”最高的性能/峰值(Perf divided by peak TOPS)成績。TOPS(每秒萬億次運算) 是一個衡量性能效率的指標,意味著在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。機器學習(ML)是支撐當今人工智能AI)技術發展的核心算法,性能效率關乎各種 AI 應用的實現和落地。然而,玩家們你方唱罷我登場的機器學習性能之爭,紙上公開的數據是否可信,效率高低誰來評判、如何評判?

帶著這些問題,Aspencore 首席分析師邵樂峰先生連線賽靈思人工智能高級總監姚頌及人工智能高級經理羅霖先生,希望通過更深度地了解賽靈思此次參加測試的過程及結果,探索衡量機器學習芯片性能的基準及自適應計算平臺的前景。

1

機器學習性能誰來評判?

當今 AI 芯片的評測標準,主流的有國際上的 MLPerf,國內有人工智能產業發展聯盟的 AIIA DNN benchmark(人工智能端側芯片基準測試評估方案)。

MLPerf 是用于測試機器學習(ML)硬件、軟件以及服務的訓練和推斷性能的一套公開、標準化基準,該行業基準測試組織自 2018 年 5 月成立以來,得到了亞馬遜、百度、Facebook、谷歌、哈佛大學、英特爾、微軟和斯坦福大學等支持,旨在提供一個共同認可的過程,來衡量不同類型的加速器和系統如何快速有效地執行訓練過的神經網絡

作為 AI 芯片領域一個重要的基準測試,MLPerf 主要包括訓練和推斷兩方面的性能測試,并正在迅速成為業界衡量 ML 性能的事實標準。盡管目前看仍偏重于訓練端,但賽靈思軟件和人工智能高級經理羅霖認為未來推斷側性能測試的比例將會不斷增加,尤其是 MLPerf 今年在測試中增加了新模式和手機/筆記本電腦這兩種新類別。今年的 MLPerf Inference 基準測試(v0.7)的第二個版本,吸引了全球 1,200 多位同行進行評審。

2

從參測過程看 MLPerf 測試有何基準

此次賽靈思與 Mipsology 合作,參加了嚴格的“封閉”基準測試。該測試向廠商提供預訓練網絡和預訓練權重,是一個真正的“Close Deviation”同類測評。羅霖解釋說,同類測評就像是跳水比賽中和自選動作對應的標準動作,是實打實的基于同樣預訓練權重模型的對比。

測試系統使用賽靈思 Alveo U250 加速器卡,該卡以 Mipsology 優化的領域專用架構(DSA)為基礎?;鶞?a href="http://www.3532n.com/soft/data/50-103/" target="_blank">測試測量了基于 Alveo 的定制 DSA 在離線模式下以 5,011 圖像/秒的速度執行基于 ResNet-50 基準的圖像分類任務的效率。ResNet-50 以圖像/秒為單位測量圖像分類性能。結果,賽靈思實現了最高的性能/峰值(TOPS,每秒萬億次運算)。這是一個衡量性能效率的指標,因此也就意味著,在給定 X 個硬件峰值計算量的情況下,賽靈思提供了最高的吞吐量性能。

此外,值得一提的是,MLPerf 的結果還顯示,賽靈思與其在數據手冊中公布的性能相比,實現了 100% 的可用 TOPS。而市場上的大多數廠商只能提供其峰值 TOPS 的一小部分,效率最高通常不超過 40%。這一令人印象深刻的結果表明,并非所有數據手冊,或者說紙面上的原始峰值 TOPS,都能準確代表實際性能。

從測試看, 還有一個重要的因素值得關注, ML 應用涉及的不僅僅是 AI 處理。它們通常需要 ML 預處理功能和后處理功能,這兩者會競爭系統帶寬,導致系統級瓶頸。而賽靈思自適應平臺的強大之處就在于,它可以通過加速關鍵型非 AI 功能同時構建應用級數據流流水線,來避免系統瓶頸,從而加速整體應用。同時,賽靈思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作,使 Tensorflow 和 Pytorch 模型的硬件加速變得更容易。

3

Xilinx 首次直接參測意味著什么?

賽靈思首次直接參與 MLPerf 測試,意味著以 FPGA 為基礎的 AI 解決方案已經日趨成熟,在推斷應用中達到了業界領先的水平,日漸成為 AI 應用的主流玩家。在本次數據中心類別的封閉分區(Closed Division)參賽廠商中,除了 Nvidia 和 Intel 之外,賽靈思是唯一提交結果的芯片公司。

羅霖表示:AI 推斷是一個快速增長的市場,例如自動駕駛和基于人工智能的視頻監控,需要計算機視覺任務,如圖像分類和目標檢測。這些復雜的計算工作負載需要不同級別的吞吐量、延遲和功率才能高效運行,這就是賽靈思和自適應計算產品的亮點所在。

由于時間的原因,賽靈思在本次 MLPerf 測試中只提交了 3 項測試結果,除了上文提到的使用 U250 加速卡進行“圖像分類”外,還使用 Alveo U280 加速卡進行“目標檢測”,以及使用 Versal ACAP 平臺進行“圖像分類”。 羅霖說,U250 參加的測試是在封閉分區所有參賽者采用一樣的神經網絡模型,一樣的預訓練權重,一樣的預處理和后處理,就像體操比賽里面“標準動作”。相比之下,在開放分區(Open Division)類別中廠商允許使用自定義的方法對模型進行優化,包括重新訓練,屬于“百花齊放”類型。

但實際上,MLPerf Inference 0.7 版的 8 項測試內容賽靈思平臺其實都能支持,在公司內部運行的一些非圖像類模型,例如語音識別、自然語言處理等測試中,都有不錯的表現。相信今后公司會參加更多類別的測試。

法國初創公司 Mipsology 是賽靈思此次測試的合作伙伴,在利用 FPGA 實現神經網絡加速方面頗有建樹。羅霖表示,FPGA 是一個開放的、靈活的計算加速平臺,各種各樣和 Mipsology 一樣有能力的合作伙伴,都可以基于賽靈思相關硬件和工具鏈產品,開發出極具市場競爭力的產品。

4

TOPS 是衡量機器學習性能的唯一指標?

姚頌表示:機器學習(ML)應用程序不僅僅是 AI 處理,還需要 ML 前后的處理函數,因為這些函數會競爭系統帶寬并導致系統級瓶頸。因此,最優秀的 AI 應用實現方案未必是速度最快的,它需要的是在效率最高的同時保持靈活性,必須是量身定制的,能夠按需交付性能,不多不少。

眾所周知,神經網絡中的前一個計算結果通常都作為后一個計算的輸入,AI 推斷效率發揮不出來的主要原因是要花很多時間去內存中讀取數據。

姚頌列舉了兩種常見的提升效率模式的做法:

一是通過將計算結果快速存儲下來,避免對內存的反復讀取和寫入;

另一種是對神經網絡進行分割處理,只調用與特定區塊處理相關的數據,以流水線的方式掩蓋掉內存讀取的延時。

而具體到賽靈思的做法,羅霖更強調“端到端的優化”對高計算效率的影響。也就是說,首先要關注底層神經網絡處理單元微架構的設計,包括計算乘加、數據存儲/搬運、流水線調度等等;其次是中間層的工具鏈,例如在編譯的時候是否對模型進行了優化,是否將與模型相關的計算和對存儲的操作有效映射到微架構上;最后,再對上層應用進行優化。這一系列操作并非簡單的硬件堆砌就能達到,而是要在性能、成本、功耗等多因素之間找到微妙的平衡,不能像孩子們玩的蹺蹺板,一邊的升起,往往意味著另一邊的下墜。

羅霖進一步解釋說,一些解決方案非常適合 AI 推斷,但并不適合整體應用處理。GPUASIC 往往能提供在紙面上看上去很高的 TOPS,但是 AI 推斷性能通常需要與系統 I/O、預處理性能和后處理性能相匹配。如果非 AI 組件不能高效地在單芯片上實現,就需要多芯片解決方案。多芯片方案需要在器件之間傳遞數據,會降低系統性能并提高功耗。因此,一個能夠高效實現整體應用的單器件在實際 AI 推斷部署中擁有顯著優勢。

5

自適應計算平臺有哪些典型應用?

賽靈思 Versal ACAP 自適應計算平臺構建于能在制造后依然可以動態重配置的硬件上,包括 FPGA 等經過長期檢驗的技術,以及賽靈思 AI 引擎等最近的創新。其強大之處在于,不僅可以加速關鍵的人工智能和非人工智能功能,而且還可以構建應用程序級流媒體管道,以避免系統瓶頸,從而實現整個應用程序的加速。

為了能夠更好地理解上述理論,羅霖和姚頌為我們列舉了一些典型的應用場景:

自動駕駛

自動駕駛對超低延時是相當看重的,通常要求每一幀的延時不能超過 33 毫秒,這意味著真正能留給感知和識別的時間只有不到 10 毫秒,FPGA 可以做到幾毫秒之內的延時,相比之下,GPU 就很難做到。

智能視頻分析

“數據路徑越復雜對 FPGA 越有利”,羅霖說,在智能視頻分析中,不光有 CNN 推斷,還包括檢測、解碼、圖像預處理和后處理等許多工作,FPGA 器件能夠做很多優化的、定制化的硬件加速。如果換成 GPU,盡管在處理 YOLOV3 模型時效果不錯,但添加上其他任務后,就會明顯感到“力不從心”,類似現象在語音類、推薦類應用中也很常見。

ResNet-50 Vs YOLOv3

YOLOv3 是用于各類目標檢測與識別的神經網絡模型,準確率高。支持者認為,ResNet-50 使用的 224×224 基準圖像像素現在“幾乎無人使用”,而 YOLOv3 使用 608×608,甚至 1440×1440 像素,屬于高清處理,這對自動駕駛、機器人、銀行安全及零售分析領域的客戶來說十分重要。

姚頌不否認 YOLOv3 是在準確率和計算性能上取得不錯平衡的模型,但他不認為這樣就可以取代 ResNet-50 標準,例如在醫療影像、工業圖像檢測等領域就使用了包括 SSB 在內的其它模型。更重要的是,ResNet-50 的整體架構非常高效,很多互聯網企業的神經網絡都基于 ResNet-50 模塊搭建。所以,“我們不應該只把眼光聚焦在 YOLOv3 模型上,一顆 AI 芯片,至少應該把 CNN 推斷或者類似的神經網絡架構都支持起來,否則人家會認為你只支持 YOLOv3 模型?!彼f。

作者:邵樂峰

ASPENCORE 中國區首席分析師

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    463

    文章

    54007

    瀏覽量

    465903
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301353
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265267
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136928
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    人工智能與機器學習在這些行業的深度應用

    自人工智能和機器學習問世以來,多個在線領域的數字化格局迎來了翻天覆地的變化。這些技術從誕生之初就為企業賦予了競爭優勢,而在線行業正是受其影響最為顯著的領域。人工智能(AI)與機器學習
    的頭像 發表于 02-04 14:44 ?468次閱讀

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監督學習不同,監督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴你,而是把環境、動作和結果連起來,讓
    的頭像 發表于 01-31 09:34 ?641次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注數據、模型架構
    的頭像 發表于 01-07 15:37 ?184次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    探索RISC-V在機器人領域的潛力

    : 官方和社區對主流軟件(如Linux, ROS 2)的適配非常積極,降低了開發門檻。 3. 定位清晰: 精準定位于高性能RISC-V應用開發、AI和機器人領域,是學習和項目實踐的優秀平臺。 不足
    發表于 12-03 14:40

    華邦高性能NOR Flash用于學習平板

    華邦電子(Winbond)的NOR Flash以其卓越性能成為學習平板理想的存儲解決方案。其芯片內執行(XIP)特性可實現系統秒級快速啟動,高可靠性確保固件和核心代碼安全,低功耗特性則有效延長設備續航,為流暢穩定的學習體驗奠定堅
    的頭像 發表于 11-10 09:48 ?515次閱讀
    華邦高<b class='flag-5'>性能</b>NOR Flash用于<b class='flag-5'>學習</b>平板

    如何在機器視覺中部署深度學習神經網絡

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術。事實上,這種印象忽視了該技術為機器視覺(乃至生產自動化)帶來的潛力,因為深度學習并非只屬于計算機科學家或程序員。 從頭開始:什么
    的頭像 發表于 09-10 17:38 ?900次閱讀
    如何在<b class='flag-5'>機器</b>視覺中部署深度<b class='flag-5'>學習</b>神經網絡

    如何解決開發機器學習程序時Keil項目只能在調試模式下運行,但無法正常執行的問題?

    如何解決開發機器學習程序時Keil項目只能在調試模式下運行,但無法正常執行的問題
    發表于 08-28 07:28

    貿澤電子2025邊緣AI與機器學習技術創新論壇回顧(上)

    2025年,隨著人工智能技術的快速發展,邊緣AI與機器學習市場迎來飛速增長,據Gartner預計,2025年至2030年,邊緣AI市場將保持23%的復合年增長率。
    的頭像 發表于 07-21 11:08 ?1173次閱讀
    貿澤電子2025邊緣AI與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>技術創新論壇回顧(上)

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發展,傳統的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規模數據和復雜模型的需求。FPGA(現場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發表于 07-16 15:34 ?2884次閱讀

    國產地物光譜儀在“高光譜-機器學習”模型構建中的表現

    在遙感應用和環境監測日益精細化的今天,“高光譜 + 機器學習”的組合已成為地物識別、礦產探測、農業監測等領域的重要技術手段。而作為獲取高光譜數據的前端工具,地物光譜儀的性能直接影響到后續模型的精度
    的頭像 發表于 04-18 16:15 ?740次閱讀
    國產地物光譜儀在“高光譜-<b class='flag-5'>機器</b><b class='flag-5'>學習</b>”模型構建中的表現

    每晚“免費”開的中國路燈:如此龐大的“電費消耗”,誰來支付?物聯網單燈控制器智能路燈合同能源管理

    每晚“免費”開的中國路燈:如此龐大的“電費消耗”,誰來支付?物聯網單燈控制器智能路燈合同能源管理
    的頭像 發表于 04-02 09:53 ?1768次閱讀
    每晚“免費”開的中國路燈:如此龐大的“電費消耗”,<b class='flag-5'>誰來</b>支付?物聯網單燈控制器智能路燈合同能源管理

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    【技術干貨】nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節,今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF54上部署AI
    發表于 04-01 00:00

    深度解讀英偉達Newton機器人平臺:技術革新與跨界生態構建

    :高性能物理引擎與AI融合 Newton是英偉達聯合Google DeepMind和迪士尼研究院共同開發的 開源物理引擎 ,專為機器人學習與仿真優化設計。其核心技術特點包括: 多
    的頭像 發表于 03-20 15:15 ?2846次閱讀
    深度解讀英偉達Newton<b class='flag-5'>機器</b>人平臺:技術革新與跨界生態構建

    LLC動態性能分析

    這里的LLC動態是指LLC電路在突加負載時的動態響應。一般用輸出電壓的下跌和過沖評判LLC動態性能。
    的頭像 發表于 03-19 09:45 ?2320次閱讀
    LLC動態<b class='flag-5'>性能</b>分析

    請問STM32部署機器學習算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學習算法硬件至少要使用哪個系列的芯片?
    發表于 03-13 07:34