国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用AWS Graviton3上的SVE加速NVIDIA HPC軟件

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-11 11:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最新 NVIDIA HPC SDK 更新擴展了可移植性,現(xiàn)在支持基于 Arm 的 AWS Graviton 3 processor 。在本文中,您將學(xué)習如何使用 NVIDIA 編譯器啟用可縮放矢量擴展( Scalable Vector Extension , SVE )自動矢量化,以最大限度地提高運行在 AWS Graviton3 CPU 上的 HPC 應(yīng)用程序的性能。

HPC SDK NVIDIA 軟件包

NVIDIA HPC SDK 包括經(jīng)過驗證的編譯器、庫和軟件工具,對于最大限度地提高開發(fā)人員生產(chǎn)力和為 CPU 、 CPU 或云構(gòu)建 HPC 應(yīng)用 至關(guān)重要。

NVIDIA HPC compilers 為 NVIDIA GPU 和多核 Arm 、 OpenPOWER 或 x86-64 CPU 啟用跨平臺 C 、 C ++和 Fortran 編程。對于使用 OpenMP 、 OpenACC 和 CUDA 以 C 、 C ++或 Fortran 編寫的 HPC 建模和仿真應(yīng)用程序,這些都是理想的選擇。

例如,與 GCC 12.1 相比,使用 NVIDIA HPC 編譯器編譯時, AWS Graviton 3 的 SPEC CPU ? 2017 基準分數(shù)預(yù)計增加 17% 。

編譯器還可以與優(yōu)化的 NVIDIA math libraries 、通信庫以及性能調(diào)優(yōu)和調(diào)試工具完全互操作。這些加速的數(shù)學(xué)庫最大限度地提高了普通 HPC 算法的性能,而優(yōu)化的通信庫支持基于標準的可擴展系統(tǒng)編程。

集成的性能分析和調(diào)試工具簡化了 HPC 應(yīng)用程序的移植和優(yōu)化,而容器化工具可以方便地在本地或云中部署。

臂和 AWS 重力 3

AWS Graviton3 于 2022 年 5 月推出,是 AWS 基于 Arm 的 CPU 。 Arm 體系結(jié)構(gòu)具有傳統(tǒng)的能效和對高內(nèi)存帶寬的支持,使其成為云和數(shù)據(jù)中心計算的理想選擇。 Amazon 報導(dǎo) :

Amazon EC2 C7g 實例由最新一代 AWS Graviton3 處理器提供支持,為計算密集型工作負載提供了 Amazon EC2 中最佳的性價比。 C7g 實例非常適合 HPC 、批處理、電子設(shè)計自動化( EDA )、游戲、視頻編碼、科學(xué)建模、分布式分析、基于 CPU 的機器學(xué)習( ML )推理和廣告服務(wù)。與基于第六代 AWS Graviton2 的 C6g 實例相比,它們的性能提高了 25% 。

與 AWS Graviton2 相比, ANSYS 將 AWS Graviton3 的性能提高 35% 作為基準 。一級方程式模擬速度也提高了 40% 。自推出 Arm Neoverse 產(chǎn)品線以來,基于 Arm 的 CPU 一直在提供重大創(chuàng)新和性能增強,當時 Neoverses N1 核心 超過績效預(yù)期30% 。

與 Arm 支持新計算技術(shù)的歷史保持一致, AWS Graviton3 的特點是 DDR5 內(nèi)存和 SVE 到 Arm 體系結(jié)構(gòu)。

Amazon EC2 C7g 實例是云中第一個使用 DDR5 內(nèi)存的實例,與 DDR4 內(nèi)存相比,它提供了 50% 的內(nèi)存帶寬,從而實現(xiàn)了對內(nèi)存中數(shù)據(jù)的高速訪問。充分利用所有內(nèi)存帶寬的最佳方法是使用最新的矢量化技術(shù): Arm SVE 。

SVE 架構(gòu)

除了是第一個提供 DDR5 的云托管 CPU 之外, AWS Graviton3 也是第一個在云中使用 SVE 的。

SVE 首次引入富士通 A64FX CPU ,為 RIKEN Fugaku 超級計算機供電。當 Fugaku 推出時,它打破了所有當代 HPC CPU 基準,并在兩年內(nèi)自信地名列 TOP500 超級計算機榜首。

SVE 和高帶寬內(nèi)存是 A64FX 的主要設(shè)計特點,是 HPC 的理想之選,而 AWS Graviton3 處理器中也有這兩個特點。

SVE 是 Arm 體系結(jié)構(gòu)的下一代 SIMD 擴展。它可以使用 CPU 實現(xiàn)中的一系列可能值實現(xiàn)靈活的矢量長度。矢量長度可以從最小 128 位到最大 2048 位不等,增量為 128 位。

例如,富士通 A64FX 以 512 位實現(xiàn) SVE ,而 AWS Graviton3 以 256 位實現(xiàn)。與其他 SIMD 體系結(jié)構(gòu)不同,盡管硬件矢量位寬度不同,但相同的匯編代碼在兩個 CPU 上運行。這稱為矢量長度無關(guān)( VLA )編程。

VLA 代碼具有高度的可移植性,可以使編譯器生成更好的匯編代碼。但是,如果編譯器知道目標 CPU 的硬件矢量位寬度,它可以針對特定的體系結(jié)構(gòu)進行進一步優(yōu)化。這是矢量長度特定( VLS )編程。

SVE 對 VLA 和 VLS 使用相同的匯編語言。唯一的區(qū)別是,編譯器在生成代碼時可以自由地對數(shù)據(jù)布局、循環(huán)跳閘計數(shù)和其他相關(guān)特性進行附加斷言。這會產(chǎn)生高度優(yōu)化的、特定于目標的代碼,從而充分利用 CPU 。

SVE 還引入了一系列功能強大的高級功能,非常適合 HPC 和 ML 應(yīng)用:

收集加載和分散存儲指令允許對結(jié)構(gòu)數(shù)組和其他非連續(xù)數(shù)據(jù)進行矢量化操作。

推測性矢量化支持對包含控制流的字符串操作函數(shù)和循環(huán)進行 SIMD 加速。

水平和序列化矢量操作有助于數(shù)據(jù)縮減,并有助于優(yōu)化處理大型數(shù)據(jù)集的循環(huán)。

SVE 不是 NEON 指令集的擴展或替代,后者也可在 AWS Gravition3 中使用。 SVE 經(jīng)過重新設(shè)計,以提高 HPC 和 ML 的數(shù)據(jù)并行性。

使用 NVIDIA HPC 編譯器最大限度地提高 Graviton3 性能

編譯器自動矢量化是利用 SVE 的最簡單方法之一, NVIDIA HPC 編譯器在 22.7 版本中添加了對 SVE 自動矢量化的支持。

為了最大限度地提高性能,編譯器執(zhí)行分析以確定要生成的 SIMD 指令。 SVE 自動矢量化使用目標特定信息,根據(jù) CPU 核的矢量位寬度生成高度優(yōu)化的矢量長度特定( VLS )代碼。

要啟用 SVE 自動矢量化,請為目標 CPU 指定適當?shù)?-tp 體系結(jié)構(gòu)標志: -tp = neoverse-v1 。如果不指定 -tp 選項,則假定應(yīng)用程序?qū)⒃诰幾g它的同一系統(tǒng)上執(zhí)行。

在 Graviton3 上使用 NVIDIA HPC 編譯器編譯的應(yīng)用程序會自動充分利用 CPU 的 256 位 SVE SIMD 單元。 Graviton3 還向后兼容 -tp = neoverse-n1 選項,但僅在其 128 位 NEON SIMD 單元上運行矢量代碼。

NVIDIA HPC SDK 入門

NVIDIA HPC SDK 提供了一個全面且經(jīng)驗證的軟件堆棧。它使 HPC 開發(fā)人員能夠在 NVIDIA 平臺和 AWS Graviton3 等高性能系統(tǒng)上創(chuàng)建和優(yōu)化應(yīng)用程序性能。

通過提供廣泛的編程模型、庫和開發(fā)工具,可以針對專用硬件高效開發(fā)應(yīng)用程序,從而在 NVIDIA GPU 和支持 SVE 的處理器(如 AWS Graviton3 )等系統(tǒng)中實現(xiàn)最先進的性能。

關(guān)于作者

John Linford 博士是 NVIDIA 的首席技術(shù)經(jīng)理,專注于開發(fā) CPU 軟件生態(tài)系統(tǒng)。 John 此前曾擔任 HPC 工程部主任。 John 擁有近二十年的一線 HPC 應(yīng)用、系統(tǒng)和優(yōu)化經(jīng)驗,尤其喜歡與新興技術(shù)和極端規(guī)模的系統(tǒng)合作。約翰的總部設(shè)在德克薩斯州奧斯汀。

Scott Manley 是一名編譯器優(yōu)化工程師,也是 NVIDIA HPC SDK 的自動矢量化主管。 Scott 的整個職業(yè)生涯都致力于矢量化和 HPC 編譯器。他曾在 Cray 編譯環(huán)境( CCE )工作,并在都柏林三一學(xué)院獲得博士學(xué)位,主要致力于優(yōu)化 SIMD ISAs 的使用。

Graham Lopez 在 NVIDIA 領(lǐng)導(dǎo)高性能計算編譯器的產(chǎn)品管理。此前,他曾與應(yīng)用程序合作,以在當前和未來的領(lǐng)先級計算設(shè)施上大規(guī)模運行。除了直接參與 HPC 應(yīng)用程序之外, Graham 還發(fā)表了編程模型、計算科學(xué)、異構(gòu)系統(tǒng)的應(yīng)用程序加速和基準測試以及低級通信 API 等領(lǐng)域的研究成果。格雷厄姆過去三年一直是 ISO C ++標準委員會的成員。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5594

    瀏覽量

    109743
  • 編譯器
    +關(guān)注

    關(guān)注

    1

    文章

    1672

    瀏覽量

    51614
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    NVIDIA 收購開源工作負載管理提供商 SchedMD

    NVIDIA 將持續(xù)提供 SchedMD 的廠商中立的開源 Slurm 軟件,確保其在高性能計算(HPC)和 AI 領(lǐng)域的廣泛可用性。 NVIDIA 宣布收購 SchedMD,該公司是
    的頭像 發(fā)表于 12-16 18:24 ?1345次閱讀

    NVIDIAAWS擴展全棧合作伙伴關(guān)系

    亞馬遜云科技(AWS)將 NVIDIA NVLink Fusion 集成到其定制芯片中,包括新一代 Tranium4 芯片、GravitonAWS Nitro System。
    的頭像 發(fā)表于 12-13 09:20 ?961次閱讀

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據(jù)生成。借助 NVIDIA Omniverse 庫和 Co
    的頭像 發(fā)表于 12-01 09:25 ?1137次閱讀

    NVIDIA宣布開源Aerial軟件

    NVIDIA 開源其 Aerial 軟件,并將 NVIDIA Sionna 研究套件和 Aerial 測試平臺引入 NVIDIA DGX Spark 平臺,為研究人員提供強大的工具和便
    的頭像 發(fā)表于 11-03 15:14 ?915次閱讀

    亞馬遜云科技在中國區(qū)域推出Amazon Graviton4實例 以自研芯片驅(qū)動企業(yè)算力升級

    Graviton4處理器的Amazon Elastic Compute Cloud(Amazon EC2)C8g、M8g和R8g實例,針對客戶不同類型的工作負載進行優(yōu)化。與Amazon Graviton3處理器
    的頭像 發(fā)表于 09-10 20:51 ?788次閱讀

    NVIDIA Dynamo新增對亞馬遜云科技服務(wù)的支持

    亞馬遜云科技 (AWS) 開發(fā)者和解決方案架構(gòu)師現(xiàn)在可以在基于 NVIDIA GPU 的 Amazon EC2 使用 NVIDIA Dynamo,包括由
    的頭像 發(fā)表于 07-28 14:31 ?980次閱讀
    <b class='flag-5'>NVIDIA</b> Dynamo新增對亞馬遜云科技服務(wù)的支持

    NVIDIA RTX AI加速FLUX.1 Kontext現(xiàn)已開放下載

    NVIDIA RTX 與 NVIDIA TensorRT 現(xiàn)已加速 Black Forest Labs 的最新圖像生成和編輯模型;此外,Gemma 3n 現(xiàn)可借助 RTX 和
    的頭像 發(fā)表于 07-16 09:16 ?2053次閱讀

    NVIDIA全棧加速代理式AI應(yīng)用落地

    在近期舉辦的 AWS 中國峰會上,NVIDIA 聚焦于“NVIDIA 全棧加速代理式 AI 應(yīng)用落地”,深入探討了代理式 AI (Agentic AI) 技術(shù)的前沿發(fā)展以及在企業(yè)級應(yīng)用
    的頭像 發(fā)表于 07-14 11:41 ?1316次閱讀

    全球各大品牌利用NVIDIA AI技術(shù)提升運營效率

    歐萊雅、LVMH 集團和雀巢利用 NVIDIA 加速的智能體 AI 和物理 AI,大幅提升產(chǎn)品設(shè)計、營銷及物流等方面的運營效率。
    的頭像 發(fā)表于 06-19 14:36 ?1206次閱讀

    NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 NVIDIA 宣布了機器人仿真參考應(yīng)用 NVIDIA Isaac Sim 和機器人學(xué)習框架 NVIDIA Isaac Lab 的更新,以
    的頭像 發(fā)表于 05-28 10:06 ?2129次閱讀

    NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動加速其數(shù)據(jù)中心規(guī)模的分析工作負載,從而節(jié)省數(shù)百萬美元。
    的頭像 發(fā)表于 03-25 15:09 ?1163次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark助力企業(yè)節(jié)省大量成本

    Cadence 利用 NVIDIA Grace Blackwell 加速AI驅(qū)動的工程設(shè)計和科學(xué)應(yīng)用

    融合設(shè)計專業(yè)知識與加速計算,推動科技創(chuàng)新、實現(xiàn)能效和工程生產(chǎn)力方面的突破性進展,引領(lǐng)全球生活新范式 內(nèi)容提要 ●?Cadence 借助 NVIDIA 最新 Blackwell 系統(tǒng),將求解器的速度
    的頭像 發(fā)表于 03-24 10:14 ?1419次閱讀

    英偉達GTC2025亮點:NVIDIA Blackwell加速計算機輔助工程軟件,實現(xiàn)實時數(shù)字孿生性能數(shù)量級提升

    、Altair、Cadence、Siemens 和 Synopsys 等在內(nèi)的領(lǐng)先計算機輔助工程(CAE)軟件供應(yīng)商正在使用 NVIDIA Blackwell 平臺加速其仿真工具,速度提升高達 50 倍
    的頭像 發(fā)表于 03-21 15:12 ?1495次閱讀

    英偉達GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和推理
    的頭像 發(fā)表于 03-21 12:01 ?1438次閱讀
    英偉達GTC2025亮點:Oracle與<b class='flag-5'>NVIDIA</b>合作助力企業(yè)<b class='flag-5'>加速</b>代理式AI推理

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實現(xiàn)集成,以幫助全球企業(yè)組織
    發(fā)表于 03-19 15:24 ?577次閱讀
    Oracle 與 <b class='flag-5'>NVIDIA</b> 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 AI 推理