本文作者:
Ashraf EassaNVIDIA 加速計(jì)算部門高級(jí)產(chǎn)品營(yíng)銷經(jīng)理
Chris PorterNVIDIA HPC & AI 高級(jí)技術(shù)營(yíng)銷經(jīng)理
高性能計(jì)算(HPC)已經(jīng)成為必不可少的科學(xué)研究工具。
無(wú)論是研發(fā)出拯救生命的新藥,還是抵御氣候變化,或是精確模擬我們的世界,這些解決方案都需要強(qiáng)大的處理能力,而且這一需求正在快速增長(zhǎng),日益超出傳統(tǒng)計(jì)算方法能夠應(yīng)對(duì)的范疇。
因此,業(yè)界紛紛采用 NVIDIA 的 GPU 進(jìn)行加速計(jì)算。結(jié)合 AI,它能帶來(lái)數(shù)百萬(wàn)倍的性能加速,推動(dòng)科學(xué)的進(jìn)步。如今,已有 2700 個(gè)應(yīng)用受益于 NVIDIA GPU 加速,而在日益增長(zhǎng)的 300 萬(wàn)開發(fā)者共同組成的社區(qū)支持下,這一數(shù)字仍在不斷攀升。
HPC 應(yīng)用性能提升
為將所有 HPC 應(yīng)用的速度提升數(shù)倍,我們需要在堆棧的每個(gè)層面進(jìn)行不斷的創(chuàng)新,包括芯片、系統(tǒng)以及應(yīng)用框架本身。
隨著架構(gòu)和 NVIDIA 軟件棧整體上的不斷進(jìn)步, NVIDIA 平臺(tái)的性能每年都會(huì)顯著提高。與六年前發(fā)布的 P100 相比, H100 Tensor Core GPU 的性能提高 26 倍,比摩爾定律快 3 倍以上。
NVIDIA 平臺(tái)的核心是一個(gè)功能豐富的高性能軟件堆棧。為了方便各種 HPC 應(yīng)用實(shí)現(xiàn) GPU 加速,該平臺(tái)加入了 NVIDIA HPC SDK。SDK 使開發(fā)者能夠使用標(biāo)準(zhǔn)語(yǔ)言、導(dǎo)語(yǔ)指令以及 CUDA 來(lái)編寫和移植 GPU 加速應(yīng)用,為開發(fā)者帶來(lái)了無(wú)與倫比的靈活性。
NVIDIA HPC SDK 的強(qiáng)大之處在于其龐大且高度優(yōu)化的 GPU 加速數(shù)學(xué)庫(kù),使用戶能夠充分發(fā)揮 NVIDIA GPU 的性能潛力。為了實(shí)現(xiàn)最佳的多 GPU 和多節(jié)點(diǎn)擴(kuò)展性能, NVIDIA HPC SDK 還提供強(qiáng)大的通信庫(kù):
NVSHMEM 為跨多個(gè) GPU 內(nèi)存的數(shù)據(jù)創(chuàng)建了一個(gè)全局地址空間。
NVIDIA 集合通信庫(kù)(NCCL)優(yōu)化了 GPU 之間的通信。
總之,該平臺(tái)提供最高的性能和靈活性,為龐大的、不斷增長(zhǎng)的 GPU 加速 HPC 應(yīng)用提供支持。
HPC 的性能和能效
為了展示 NVIDIA 全棧創(chuàng)新如何助力加速 HPC 實(shí)現(xiàn)最高性能, 我們將一臺(tái)配備 4 顆 NVIDIA GPU 的慧與(HPE)服務(wù)器與一臺(tái)配備另一家廠商同等數(shù)量加速器模塊且配置相似的服務(wù)器進(jìn)行了性能比較。
我們使用多種算例測(cè)試了廣泛使用的五個(gè) HPC 應(yīng)用。盡管在各個(gè)行業(yè)中有約 2700 個(gè)應(yīng)用基于 NVIDIA 平臺(tái)實(shí)現(xiàn)了加速,但由于另一家廠商的加速器只支持部分軟件和應(yīng)用版本,我們?cè)诖舜伪容^中所能使用的應(yīng)用有限。
對(duì)于除 NAMD (用于分子動(dòng)力學(xué)模擬的軟件)以外的所有應(yīng)用,我們首先獲得多個(gè)算例的結(jié)果,然后使用它們的幾何平均值作為計(jì)算結(jié)果,這樣可以將異常值的影響最小化并反映客戶的體驗(yàn)。
我們還在多 GPU 和單 GPU 場(chǎng)景下測(cè)試了這些應(yīng)用。
在多 GPU 場(chǎng)景中,測(cè)試系統(tǒng)中的所有加速器都被用來(lái)運(yùn)行一個(gè)模擬,基于 A100 Tensor Core GPU 的服務(wù)器所提供的性能比起另一臺(tái)服務(wù)器高出 2.1 倍。
得益于計(jì)算性能的持續(xù)進(jìn)步,分子動(dòng)力學(xué)領(lǐng)域正朝著模擬更大的原子體系和更長(zhǎng)的時(shí)間的方向發(fā)展。這使研究者能夠模擬越來(lái)越多的生物化學(xué)機(jī)制,例如光合電子傳遞和視覺(jué)信號(hào)轉(zhuǎn)導(dǎo)。對(duì)于此類過(guò)程,由于模擬這一主要驗(yàn)證方式耗時(shí)過(guò)長(zhǎng),之前無(wú)法通過(guò)模擬來(lái)對(duì)其進(jìn)行驗(yàn)證,導(dǎo)致這類過(guò)程也一直引發(fā)科學(xué)界的爭(zhēng)論。
但我們認(rèn)識(shí)到,并非所有用戶都會(huì)在每次模擬時(shí)使用多個(gè) GPU 運(yùn)行。為了獲得最佳吞吐量,最好的方法往往是為每次模擬分配一個(gè) GPU。
當(dāng)在單一加速器模塊( NVIDIA A100 上一個(gè)的完整 GPU 和另一款產(chǎn)品上的兩個(gè)計(jì)算芯片)上運(yùn)行這些應(yīng)用時(shí),基于 NVIDIA A100 的系統(tǒng)提供了高達(dá) 1.9 倍的性能。
電力成本占據(jù)了數(shù)據(jù)中心和超級(jí)計(jì)算中心總擁有成本(TCO)中的很大一部分,這突出了高能效計(jì)算平臺(tái)的重要性。根據(jù)我們的測(cè)試, NVIDIA 平臺(tái)的每瓦吞吐量比其他產(chǎn)品高 2.8 倍。
多年來(lái), 我們?yōu)榱俗畲笙薅鹊靥岣邞?yīng)用性能和效率而堅(jiān)持不懈地進(jìn)行軟硬件協(xié)同優(yōu)化,最終打造出具有卓越性能和能效的 NVIDIA A100 GPU。欲進(jìn)一步了解 NVIDIA Ampere 架構(gòu),請(qǐng)參見 NVIDIA A100 Tensor Core GPU 白皮書。
A100 在操作系統(tǒng)中也表現(xiàn)為一個(gè)單一的處理器,只需要啟動(dòng)一個(gè) MPI 線程就可以充分發(fā)揮它的性能。而且由于一個(gè)節(jié)點(diǎn)中所有 GPU 之間都采用 600-GB/s NVLink 互聯(lián),因此 A100 可以提供出色的擴(kuò)展性能。
AI 與 HPC 的融合
正如加速計(jì)算將模擬和仿真應(yīng)用的速度提高了數(shù)倍, AI 和 HPC 的結(jié)合也將進(jìn)一步提升性能,推動(dòng)下一波科學(xué)研究的發(fā)展。
從我們首次提交 MLPerf 訓(xùn)練結(jié)果到最近一次提交,已有三年的時(shí)間。在這三年里, NVIDIA 平臺(tái)在這套由同行評(píng)審的行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中將深度學(xué)習(xí)性能提高了 20 倍。這些成果來(lái)自于芯片、軟件和規(guī)模上的全面提高。
科學(xué)家和研究者已在使用 AI 大幅提升性能,加快科學(xué)研究的速度。
使識(shí)別引力波所需的時(shí)間減少為原來(lái) 10 萬(wàn)分之一。
對(duì)呼吸道飛沫中的 Delta SARS-CoV-2 病毒(原子數(shù)超過(guò) 10 億)進(jìn)行模擬的速度提高 1000 倍。
加速清潔聚變能源的發(fā)展。
為余熱鍋爐(HRSG)工廠創(chuàng)建預(yù)測(cè)性數(shù)字孿生。
世界各地的超級(jí)計(jì)算中心都在持續(xù)使用加速 AI 超級(jí)計(jì)算機(jī)。
阿貢領(lǐng)導(dǎo)力計(jì)算設(shè)施(ALCF)的 Polaris 超級(jí)計(jì)算機(jī)、美國(guó)國(guó)家能源研究科學(xué)計(jì)算中心(NERSC)的 Perlmutter、意大利多所大學(xué)組建的 CINECA 聯(lián)盟建設(shè)的 Leonardo,均采用 A100 Tensor Core GPU 加速。
即將在 2023 年上線的 Alps 超級(jí)計(jì)算機(jī)基于 NVIDIA 的 Grace Hopper 超級(jí)芯片打造而成。
計(jì)劃于 2023 年交付的洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的 Venado 系統(tǒng),將包含 Grace Hopper 超級(jí)芯片以及 Grace CPU 超級(jí)芯片節(jié)點(diǎn)。
原文標(biāo)題:NVIDIA 通過(guò)全棧創(chuàng)新推動(dòng)高性能計(jì)算的發(fā)展
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109778 -
HPC
+關(guān)注
關(guān)注
0文章
346瀏覽量
24983 -
高性能計(jì)算
+關(guān)注
關(guān)注
0文章
96瀏覽量
13814
原文標(biāo)題:NVIDIA 通過(guò)全棧創(chuàng)新推動(dòng)高性能計(jì)算的發(fā)展
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程
RSoft GPU加速技術(shù)重塑光子元件設(shè)計(jì)效率革命
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
NVIDIA推出NVQLink高速互連架構(gòu)
Lambda采用Supermicro NVIDIA Blackwell GPU服務(wù)器集群構(gòu)建人工智能工廠
NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄
NVIDIA虛擬GPU 18.0版本的亮點(diǎn)
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
使用NVIDIA CUDA-X庫(kù)加速科學(xué)和工程發(fā)展
英偉達(dá)GTC2025亮點(diǎn):NVIDIA Blackwell加速計(jì)算機(jī)輔助工程軟件,實(shí)現(xiàn)實(shí)時(shí)數(shù)字孿生性能數(shù)量級(jí)提升
超級(jí)計(jì)算與 HPC 之間的界限日趨模糊
采用NVIDIA GPU加速HPC應(yīng)用性能提升
評(píng)論