国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基準分數突出了廣泛的機器學習推理性能

張艷 ? 來源:Lucia_nie ? 作者:Lucia_nie ? 2022-07-21 10:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼今年早些時候發布的訓練基準分數之后,MLPerf 發布了其推理基準的第一組基準分數。

與目前有 5 家公司的 63 份參賽作品的訓練輪相比,更多的公司提交了基于 MobileNet、ResNet、Yolo 等神經網絡架構的推理結果。總共有來自 14 個組織的 500 多個分數進行了驗證。這包括來自幾家初創公司的數據,而一些知名初創公司仍然明顯缺席。

在封閉的部門,其嚴格的條件可以直接比較系統,結果顯示性能差異為 5 個數量級,并且在估計的功耗方面跨越三個數量級。在開放部門中,提交可以使用一系列模型,包括低精度實現。

Nvidia 在封閉部門的所有類別中都獲得了商用設備的第一名。其他領先者包括數據中心類別的 Habana Labs、谷歌和英特爾,而 Nvidia 在邊緣類別中與英特爾和高通競爭。

pYYBAGLXT8uAc4TSAAEshK1KHAk991.jpg

英偉達用于數據中心推理的 EGX 平臺(圖片:英偉達)

Moor Insights and Strategy 分析師 Karl Freund 表示:“Nvidia 是唯一一家擁有生產芯片、軟件、可編程性和人才的公司,可以發布跨 MLPerf 范圍內的基準測試,并在幾乎所有類別中獲勝?!?“GPU 的可編程性為未來的 MLPerf 版本提供了獨特的優勢……我認為這展示了 [Nvidia] 實力的廣度,以及挑戰者的利基性質。但隨著時間的推移,許多挑戰者會變得成熟,因此英偉達需要繼續在硬件和軟件方面進行創新。”

Nvidia 發布的圖表顯示了其對結果的解釋,在商用設備的封閉部門的所有四個場景中,它都位居第一。

這些場景代表不同的用例。離線和服務器場景用于數據中心的推理。離線場景可能代表大量圖片的離線照片標記并測量純吞吐量。服務器場景代表一個用例,其中包含來自不同用戶的多個請求,在不可預測的時間提交請求,并在固定時間測量吞吐量。邊緣場景是單流,它對單個圖像進行推理,例如在手機應用程序中,以及多流,它測量可以同時推理多少個圖像流,用于多攝像頭系統。

公司可以為選定的機器學習模型提交結果,這些模型在四種場景中的每一種中執行圖像分類、對象檢測和語言翻譯。

數據中心結果

“從數據中心的結果來看,Nvidia 在服務器和離線類別的所有五個基準測試中均名列前茅,”Nvidia 加速計算產品管理總監 Paresh Kharya 說。“在商用解決方案中,我們的 Turing GPU 的性能優于其他所有人?!?/p>

Kharya 強調了這樣一個事實,即英偉達是唯一一家在數據中心類別的所有五個基準模型中提交結果的公司,而對于服務器類別(這是更困難的情況),英偉達的性能相對于其競爭對手有所提高。

pYYBAGLXT9CAY9DfAADuOqQxTLg534.jpg

選定的數據中心基準測試結果來自封閉部門,在商用設備類別中處于領先地位。結果顯示相對于每個加速器的 Nvidia 分數。X 代表“未提交結果”(圖片:Nvidia)

英偉達在數據中心領域最接近的競爭對手是擁有Goya 推理芯片的以色列初創公司 Habana Labs 。

分析師 Karl Freund 表示:“Habana 是唯一一個全面生產高性能芯片的挑戰者,當下一個 MLPerf 套件有望包含功耗數據時,它應該會做得很好。”

Habana Labs 在接受 EETimes 采訪時指出,基準分數純粹基于性能——功耗不是衡量標準,實用性也不是(例如考慮解決方案是被動冷卻還是水冷),成本也不是。

poYBAGLXT9mAV4bIAAD-pxpLakQ911.jpg

Habana Labs PCIe 卡采用 Goya 推理芯片(圖片:Habana Labs)

Habana 還使用開放分區來展示其低延遲能力,比封閉分區進一步限制延遲,并為多流場景提交結果。

邊緣計算結果

在邊緣基準測試中,Nvidia 贏得了所有四個在封閉部門提交商用解決方案的類別。高通的 Snapdragon 855 SoC 和英特爾的 Xeon CPU 在單流類別中落后于英偉達,高通和英特爾都沒有提交更困難的多流場景的結果。

poYBAGLXT9-AeURxAADPVeR-l4A989.jpg

選定的邊緣基準測試結果來自封閉部門,在商用設備類別中處于領先地位。結果顯示相對于每個加速器的 Nvidia 分數。X 代表“未提交結果”(圖片:Nvidia)

“預覽”系統(尚未商業化)的結果將阿里巴巴 T-Head 的含光芯片與英特爾的 Nervana NNP-I、Hailo-8和 Centaur Technologies 的參考設計進行了對比。與此同時,研發類別的特色是一家隱秘的韓國初創公司 Furiosa AI,對此我們知之甚少。

MLPerf 網站上提供了最近的推理分數以及早期的訓練分數。



審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 基準測試
    +關注

    關注

    0

    文章

    21

    瀏覽量

    7805
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136975
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發布新一代推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性能提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設計更貼合當前MoE和長上下文模型在推理階段的需
    發表于 01-28 11:09 ?407次閱讀

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規?;母?b class='flag-5'>性能 OCR 能力

    落地過程中,企業逐漸意識到:** 制約 OCR 應用進一步擴展的核心因素,已不再是模型準確率本身,而是整體推理性能與部署成本。 具體來說,規?;?OCR 應用主要面臨以下幾方面挑戰: 吞吐量(FPS)不足 ,難以支撐高并發或多路輸入場景; 推理
    的頭像 發表于 01-22 21:02 ?162次閱讀
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,在 ARM 與 x86 平臺交付可規?;母?b class='flag-5'>性能</b> OCR 能力

    通過NVIDIA Jetson AGX Thor實現7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進一步優化推理性能。該平臺同時支持推測解碼等新技術,為在邊緣端加速生成式 AI 工作負載提供了新的途徑。
    的頭像 發表于 10-29 16:53 ?1434次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現這一目標,其構建了多維度的核心實現路徑:一方面,針對需
    的頭像 發表于 10-21 11:04 ?1182次閱讀

    利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現了在 AI 網絡、存儲和安全等領域的創新突破。
    的頭像 發表于 09-23 15:25 ?1032次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發表于 09-23 14:45 ?930次閱讀
    使用NVIDIA NVLink Fusion技術提升AI<b class='flag-5'>推理性能</b>

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個用于優化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經網絡(CNN)為核心組件的預測式AI模型(Predictive AI),還支持以Transformer為核心組件的生成式AI模型(Generative AI)。
    的頭像 發表于 09-20 11:17 ?1246次閱讀
    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4463次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    華為亮相2025金融AI推理應用落地與發展論壇

    創新技術——UCM推理記憶數據管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業正循環。同時,華為攜手中國銀聯率先在金融典型場景開展UCM技術試點應用,并聯合發布智慧金融AI推理
    的頭像 發表于 08-15 09:45 ?1233次閱讀

    中軟國際智算中心成功完成華為EP方案驗證

    在大模型邁向規模化應用的新階段,推理性能成為決定AI落地成敗的關鍵因素。中軟國際智算中心積極響應國產智算體系建設戰略,率先完成華為昇騰“大規模專家并行”(EP)推理方案驗證,在DeepSeek-R1模型推理任務中實現3倍單卡吞吐
    的頭像 發表于 07-14 14:54 ?1424次閱讀

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰。為了解決這一問題,本文將探討大模型推理顯存和
    發表于 07-03 19:43

    邊緣計算中的機器學習:基于 Linux 系統的實時推理模型部署與工業集成!

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個機器學習模型(神經網絡)部署到邊緣設備上,利用從ModbusTCP寄存器獲取的實時數據來預測一臺復古音頻放大器的當前健康狀況。你將
    的頭像 發表于 06-11 17:22 ?1002次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>:基于 Linux 系統的實時<b class='flag-5'>推理</b>模型部署與工業集成!

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場景。
    的頭像 發表于 04-14 10:22 ?1552次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化將
    的頭像 發表于 03-20 15:03 ?1240次閱讀

    從零復現,全面開源:360 Light-R1-14B/7B帶來端側AI平權時刻

    14B開源颶風,360掀起端側推理性能革命
    的頭像 發表于 03-16 10:47 ?1109次閱讀
    從零復現,全面開源:360 Light-R1-14B/7B帶來端側AI平權時刻