国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Sapphire Rapids加速器::AMX、DLB、DSA、IAA和AMX

sakobpqhz ? 來源:算力基建 ? 作者:算力基建 ? 2022-11-02 13:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

英特爾的年度創(chuàng)新活動最近在圣何塞舉行,該公司希望重新獲得在過去幾年中慢慢失去的大量技術(shù)動力。雖然英特爾一直在努力發(fā)布新產(chǎn)品,但進度的延遲和無法向親臨現(xiàn)場的觀眾展示他們的產(chǎn)品,使該公司及其產(chǎn)品失去了一些光澤。因此,對于在這次自疫情爆發(fā)以來舉辦的最大的現(xiàn)場技術(shù)活動,該公司正在盡可能多地展示其產(chǎn)品,以說服媒體、合作伙伴和客戶相信其CEO Pat Gelsinger的努力已經(jīng)使該公司回到了正軌。

在英特爾過去幾年的奮斗中,沒有比他們的Sapphire Rapids服務(wù)器/工作站CPU更好的產(chǎn)品了。作為Intel真正的下一代產(chǎn)品,它帶來了從PCIe 5、DDR5到CXL的一切,以及一系列硬件加速卡,對于Sapphire Rapids的延遲,真的沒有什么可寫的。

但Sapphire Rapids即將到來。英特爾終于能夠看到這些開發(fā)工作隧道盡頭的光亮了。距離2023年第一季度的全面上市只有一個多季度,英特爾終于可以向更多人展示Sapphire Rapids了。或者從更務(wù)實的角度來看,英特爾現(xiàn)在需要在Sapphire Rapids的發(fā)布之前開始認(rèn)真推廣它。

在今年的展會上,英特爾邀請媒體成員觀看預(yù)生產(chǎn)的Sapphire Rapids芯片的現(xiàn)場演示。演示的目的,除了讓媒體能夠說 "我們看到了它;它真的存在!"之外,也是為了開始展示Sapphire Rapids的一個更獨特的功能:其專用加速器塊的集合。

除了為CPU的處理器核心提供急需的更新外,Sapphire Rapids還為幾個常見的CPU關(guān)鍵服務(wù)器/工作站工作負(fù)載添加了專用加速器塊。簡單地說,這個想法是,固定功能芯片可以用一小部分功率完成任務(wù),甚至比CPU核心更好,而且只需增加一小部分芯片尺寸。隨著超大規(guī)模企業(yè)和其他服務(wù)器運營商在計算密度和能源效率方面尋求重大改進,像這樣的特定領(lǐng)域加速器是英特爾向其客戶提供這種優(yōu)勢的一個好方法。而且,競爭對手AMD預(yù)計不會有類似的加速器模塊,這對他們也沒有什么影響。

01Sapphire Rapids芯片

在我們進一步討論之前,我們先來看看Sapphire Rapids芯片的情況。

2a28727c-5a70-11ed-a3b6-dac502259ad0.jpg

為了進行演示(以及提供給最終的評測者使用),英特爾使用預(yù)生產(chǎn)的芯片組裝了一些雙插口Sapphire Rapids系統(tǒng)。為了便于拍照,他們打開了一個系統(tǒng)并取出了CPU。

2a3ded78-5a70-11ed-a3b6-dac502259ad0.jpg

在這一點上,除了它的工作原理外,我們對芯片沒有什么可說的。由于它仍然是預(yù)生產(chǎn)產(chǎn)品,英特爾沒有披露時鐘速度或型號,也沒有透露非最終芯片的勘誤表。但我們所知道的是,這些芯片有60個CPU內(nèi)核在運行,還有演示的加速器塊。

Sapphire Rapids加速器::AMX、DLB、DSA、IAA和AMX

不算Sapphire Rapids CPU核心上的AVX-512單元,服務(wù)器CPU將在每個CPU塊中配備4個專用加速器。

2a4f621a-5a70-11ed-a3b6-dac502259ad0.png

這些加速器是英特爾動態(tài)負(fù)載平衡器(DLB)、英特爾數(shù)據(jù)流加速器(DSA)、英特爾內(nèi)存分析加速器(IAA)和英特爾快速輔助技術(shù)(QAT)。所有這些都作為專用設(shè)備掛在芯片網(wǎng)格上,本質(zhì)上是作為PCIe加速器,已經(jīng)集成到CPU芯片本身。這意味著加速器不消耗CPU核心資源(內(nèi)存和I/O是另一回事),但這也意味著可用的加速器核心數(shù)量不會隨著CPU核心數(shù)量的增加而直接增加。

在這些加速器中,除了QAT,其他都是英特爾的新產(chǎn)品。QAT是個例外,因為該技術(shù)的上一代是在用于第三代至強(Ice Lake-SP)處理器的PCH(芯片組)中實現(xiàn)的,而從Sapphire Rapids開始,它被集成到CPU芯片本身。因此,雖然英特爾實施特定領(lǐng)域的加速器并不是一個新現(xiàn)象,但該公司在Sapphire Rapids的想法上是全力以赴的。

2a68bb5c-5a70-11ed-a3b6-dac502259ad0.png

所有這些專用加速塊都是為了卸載一組特定的高吞吐量工作負(fù)載而設(shè)計的。例如,DSA可以加速數(shù)據(jù)復(fù)制和簡單計算,例如計算CRC32。同時,QAT是一個加密加速塊,也是一個數(shù)據(jù)壓縮/解壓縮塊。IAA也是類似的,即時數(shù)據(jù)壓縮和解壓縮,允許大型數(shù)據(jù)庫(即大數(shù)據(jù))以壓縮形式保存在內(nèi)存中。最后,DLB是加速服務(wù)器之間負(fù)載平衡的一個塊。

2a811788-5a70-11ed-a3b6-dac502259ad0.png

最后,還有Advanced Matrix Extension(AMX),它是Intel之前宣布的矩陣數(shù)學(xué)執(zhí)行塊。與張量核和其他類型的矩陣加速器類似,這些是高效執(zhí)行矩陣數(shù)學(xué)的超高密度塊。與其他加速器類型不同,AMX不是專用加速器,而是CPU內(nèi)核的一部分,每個內(nèi)核都有一個塊。

AMX是Intel在深度學(xué)習(xí)市場上的重頭戲,通過使用更密集的數(shù)據(jù)結(jié)構(gòu),它超越了目前使用AVX-512所能達到的吞吐量。雖然Intel將擁有超越這一點的GPU,但對于Sapphire Rapids,Intel希望解決需要人工智能推理的客戶群體,這些推理發(fā)生在非常靠近CPU內(nèi)核的位置,而不是在一個靈活性較低、更專用的加速器中。

02實例演示

在活動上的演示中,Intel派出了測試團隊,設(shè)置并展示了一系列利用新加速器的真實情況演示,并可以對其性能進行基準(zhǔn)測試。為此,英特爾希望展示其在自己的Sapphire Rapids硬件上與非加速(CPU)操作相比的優(yōu)勢,即為什么應(yīng)該在這些類型的工作負(fù)載中使用其加速器,并展示與在主要競爭對手AMD的EPYC(米蘭)CPU上執(zhí)行相同工作負(fù)載相比的性能優(yōu)勢。

當(dāng)然,英特爾已經(jīng)在內(nèi)部運行這些數(shù)據(jù)。因此,這些演示的目的除了揭示這些性能數(shù)據(jù)外,還在于展示這些數(shù)據(jù)是真實的,以及它們是如何獲得這些數(shù)據(jù)的。毫無疑問,這是英特爾想要邁出的最好的一步。但它是用真正的芯片和真正的服務(wù)器來實現(xiàn)的,工作負(fù)載(對我來說)似乎是測試的合理任務(wù)。

QuickAssist技術(shù)演示

首先是QuickAssist Technology(QAT)加速器的演示。Intel從NGINX工作負(fù)載開始,測量OpenSSL加密性能。

2ab37f8e-5a70-11ed-a3b6-dac502259ad0.png

2adaa5b4-5a70-11ed-a3b6-dac502259ad0.png

為了達到大致相同的性能,Intel能夠在其Sapphire Rapids服務(wù)器上實現(xiàn)大約每秒66K的連接,僅使用QAT加速器和120(2x60)個CPU內(nèi)核中的11個來處理演示的非加速位。相比之下,在Sapphire Rapids上無需任何QAT加速即可實現(xiàn)相同的吞吐量需要67個內(nèi)核,而在雙插槽EPYC 7763服務(wù)器上則需要67個核心。

2afe6544-5a70-11ed-a3b6-dac502259ad0.png

2b1917ae-5a70-11ed-a3b6-dac502259ad0.png

第二個QAT演示是在相同硬件上測量壓縮/解壓縮性能。正如我們對專用加速器塊的期望一樣,這個基準(zhǔn)測試非常失敗。QAT硬件加速器超過了CPU,甚至在使用Intel高度優(yōu)化的ISA-L庫時超過了CPU。與此同時,這幾乎是一項完全卸載的任務(wù),因此它消耗了4個CPU內(nèi)核的時間,而軟件工作負(fù)載中的所有120/128個CPU內(nèi)核都是如此。

2b3db168-5a70-11ed-a3b6-dac502259ad0.jpg

內(nèi)存分析加速器演示

第二個演示是內(nèi)存分析加速器。盡管名稱如此,它實際上并沒有加速任務(wù)的實際分析部分。相反,它是一個壓縮/解壓縮加速器,準(zhǔn)備用于數(shù)據(jù)庫,以便可以在內(nèi)存中操作它們,而無需大量的CPU性能成本。

2b6c7462-5a70-11ed-a3b6-dac502259ad0.png

2b8acef8-5a70-11ed-a3b6-dac502259ad0.png

在ClickHouse DB上運行演示,該場景演示了Sapphire Rapids系統(tǒng)與AMD EPYC系統(tǒng)相比,每秒查詢數(shù)達到59%的性能優(yōu)勢(Intel沒有運行僅限軟件的Intel設(shè)置),并且總體上減少了內(nèi)存帶寬使用量和內(nèi)存使用量。

2ba81eae-5a70-11ed-a3b6-dac502259ad0.png

2bc0283c-5a70-11ed-a3b6-dac502259ad0.png

第二次IAA演示是在RocksDB上進行的,使用相同的Intel和AMD系統(tǒng)。Intel再次展示了IAA加速SPR系統(tǒng),其性能提高了1.9倍,延遲幾乎降低了一半。

2bd90186-5a70-11ed-a3b6-dac502259ad0.jpg

高級矩陣擴展演示

Intel設(shè)置的最后一個演示站配置為顯示Advanced Matrix Extensions(AMX)和Data Streaming Accelerator(DSA)。

從AMX開始,Intel使用TensorFlow和ResNet50神經(jīng)網(wǎng)絡(luò)運行圖像分類基準(zhǔn)測試。該測試在CPU上使用了非加速的FP32操作,AVX-512在Sapphire Rapids上加速了INT8,最后AMX也在Sappphire Rapid上加速了INT8。

2bf3f1b2-5a70-11ed-a3b6-dac502259ad0.png

2c143cf6-5a70-11ed-a3b6-dac502259ad0.png

這是加速器的又一次爆炸。由于CPU內(nèi)核上的AMX塊,Sapphire Rapids系統(tǒng)在batch size為1的AVX-512 VNNI模式下的性能提高了2倍,而在bach size為16的情況下,性能提高了兩倍以上。當(dāng)然,與EPYC CPU相比,這種情況看起來更適合Intel,因為當(dāng)前Milan處理器不提供AVX-512VNNI。這里的總體性能提升不如從純CPU升級到AVX-512,但AVX-512s本身已經(jīng)部分成為矩陣加速塊(除其他外)。

2c30f4ae-5a70-11ed-a3b6-dac502259ad0.jpg

數(shù)據(jù)流加速器演示

最后,Intel演示了數(shù)據(jù)流加速器(DSA)塊,該塊將在Sapphire Rapids上展示專用的加速器塊。在這個測試中,Intel使用FIO設(shè)置了一個網(wǎng)絡(luò)傳輸演示,讓客戶端從Sapphire Rapids服務(wù)器讀取數(shù)據(jù)。這里使用DSA來卸載用于TCP數(shù)據(jù)包的CRC32計算,這一操作在Intel測試的非常高的數(shù)據(jù)速率(2x100GbE連接)下,CPU需求迅速增加。

2c4b4e4e-5a70-11ed-a3b6-dac502259ad0.png

2c628cee-5a70-11ed-a3b6-dac502259ad0.png

這里使用單個CPU內(nèi)核來展示效率(因為幾個CPU內(nèi)核就足以使鏈路飽和),與在相同工作負(fù)載上僅使用Intel優(yōu)化的ISA-L庫相比,DSA塊允許Sapphire Rapids在128K QD64順序讀取上提供76%的IOPS。EPYC系統(tǒng)的領(lǐng)先優(yōu)勢甚至更大,DSA的延遲遠低于2000 us。

使用較小的16K QD256隨機讀取,在2個CPU內(nèi)核上運行,也進行了類似的測試。DSA的性能優(yōu)勢在這里沒有那么大——與Sapphire Rapids上的優(yōu)化軟件相比,只有22%——但與EPYC相比,它的優(yōu)勢更大,延遲更低。

這就是:在Intel的第4代Xeon(Sapphire Rapids)CPU上首次發(fā)布專用加速塊(和AMX)的新聞演示。我們看到了它,它確實存在,它是Sapphire Rapids計劃從明年開始為客戶帶來的一切的冰山一角。

鑒于特定于領(lǐng)域的加速器的性質(zhì)和目的,我覺得這里沒有什么應(yīng)該讓普通技術(shù)讀者感到驚訝的。DSA的存在正是為了加速專用工作負(fù)載,特別是那些CPU和/或能源密集型工作負(fù)載,這就是Intel在這里所做的。隨著服務(wù)器市場的競爭預(yù)計將成為CPU總體性能的一個熱點,這些加速塊是Intel為其Xeon處理器增加更多價值的一種方式,并且在AMD和其他推出更多CPU內(nèi)核的競爭對手中脫穎而出。

預(yù)計在未來幾個月內(nèi),隨著英特爾最終將推出下一代服務(wù)器CPU,Sapphire Rapids將有更多的應(yīng)用。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10301

    瀏覽量

    180435
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11278

    瀏覽量

    224960
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    839

    瀏覽量

    40098

原文標(biāo)題:英特爾Sapphire Rapids硬件加速器的作用大揭秘

文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    隼瞻科技:ArchitStudio全面革新DSA處理設(shè)計

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)在AI技術(shù)向千行百業(yè)加速滲透、算力需求呈現(xiàn)多元化與碎片化特征的當(dāng)下,領(lǐng)域?qū)S眉軜?gòu)(DSA)已成為突破通用計算瓶頸的關(guān)鍵路徑。然而,高門檻、長周期等痛點,嚴(yán)重制約了DSA
    發(fā)表于 01-08 16:20 ?401次閱讀
    隼瞻科技:ArchitStudio全面革新<b class='flag-5'>DSA</b>處理<b class='flag-5'>器</b>設(shè)計

    AMD Alveo MA35D加速器:開啟大規(guī)模交互式流媒體新時代

    AMD Alveo MA35D加速器:開啟大規(guī)模交互式流媒體新時代 在當(dāng)今全球視頻市場被直播主導(dǎo)的背景下,低延遲應(yīng)用不斷涌現(xiàn),對基礎(chǔ)設(shè)施和視頻處理技術(shù)的成本結(jié)構(gòu)及部署策略產(chǎn)生了深遠影響。AMD推出
    的頭像 發(fā)表于 12-15 14:35 ?370次閱讀

    工業(yè)級-專業(yè)液晶圖形顯示加速器RA8889ML3N簡介+顯示方案選型參考表

    本帖最后由 MTCN2013 于 2025-11-17 15:23 編輯 專業(yè)液晶圖形顯示加速器能夠有效減少對MCU運算資源的占用,對于只需普通單片機運算資源的儀器儀表來說,專業(yè)圖形顯示加速器
    發(fā)表于 11-14 16:03

    邊緣計算中的AI加速器類型與應(yīng)用

    人工智能正在推動對更快速、更智能、更高效計算的需求。然而,隨著每秒產(chǎn)生海量數(shù)據(jù),將所有數(shù)據(jù)發(fā)送至云端處理已變得不切實際。這正是邊緣計算中AI加速器變得不可或缺的原因。這種專用硬件能夠直接在邊緣設(shè)備上
    的頭像 發(fā)表于 11-06 13:42 ?813次閱讀
    邊緣計算中的AI<b class='flag-5'>加速器</b>類型與應(yīng)用

    亞馬遜云科技第三期創(chuàng)業(yè)加速器圓滿收官 助力初創(chuàng)釋放Agentic AI潛力 加速全球化進程

    北京——2025年10月28日 ,亞馬遜云科技第三期創(chuàng)業(yè)加速器項目圓滿收官。35家入營企業(yè)齊聚一堂,分享了各自的業(yè)務(wù)發(fā)展情況,以及參與本期加速器的收獲及體驗。第三期創(chuàng)業(yè)加速器持續(xù)聚焦AI,特別是前沿
    的頭像 發(fā)表于 10-29 15:18 ?923次閱讀

    航裕電源以大電流技術(shù)為國內(nèi)外超導(dǎo)加速器項目提供優(yōu)質(zhì)方案

    航裕電源:以大電流技術(shù),護航尖端科技 大科學(xué)裝置建設(shè)熱潮中,超導(dǎo)加速器作為探索微觀世界、推動前沿科研的 “國之重”,對供電系統(tǒng)的穩(wěn)定性、精度及功率提出極致要求。航裕電源以31.5kA、80kA萬安
    的頭像 發(fā)表于 10-12 15:02 ?1561次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實現(xiàn)從模型訓(xùn)練的深度突破到推理部署的實時響應(yīng),為大模型的加速落地提供新選擇。
    的頭像 發(fā)表于 08-26 19:18 ?3024次閱讀
    英特爾Gaudi 2E AI<b class='flag-5'>加速器</b>為DeepSeek-V3.1提供<b class='flag-5'>加速</b>支持

    創(chuàng)客總部加入MathWorks加速器計劃

    全球領(lǐng)先的數(shù)學(xué)計算軟件開發(fā)商 MathWorks 日前宣布,創(chuàng)客總部已加入 MathWorks 加速器計劃。作為中關(guān)村科創(chuàng)孵化,創(chuàng)客總部致力于為人工智能創(chuàng)業(yè)企業(yè)、高校院所技術(shù)精英搭建推動與實體經(jīng)濟
    的頭像 發(fā)表于 08-22 10:00 ?1142次閱讀

    Andes晶心科技推出新一代深度學(xué)習(xí)加速器

    高效能、低功耗 32/64 位 RISC-V 處理核與 AI 加速解決方案的領(lǐng)導(dǎo)供貨商—Andes晶心科技(Andes Technology)今日正式發(fā)表最新深度學(xué)習(xí)加速器 AndesAIRE AnDLA I370。此產(chǎn)品專為
    的頭像 發(fā)表于 08-20 17:43 ?2330次閱讀

    Microchip推出Adaptec? SmartRAID 4300 系列加速器 提供安全的可擴展 NVMe? RAID 存儲解決方案

    Technology Inc.(微芯科技公司)推出 Adaptec ? ?SmartRAID 4300 系列 NVMe? RAID 存儲加速器。這是一款功能豐富又安全的支持RAID的高性能軟件定義存儲(SDS)解決方案
    的頭像 發(fā)表于 08-06 16:31 ?1.9w次閱讀
    Microchip推出Adaptec? SmartRAID 4300 系列<b class='flag-5'>加速器</b> 提供安全的可擴展 NVMe? RAID 存儲解決方案

    高壓放大器在粒子加速器研究中的應(yīng)用

    粒子加速器是現(xiàn)代科學(xué)研究中不可或缺的大型實驗裝置,廣泛應(yīng)用于物理學(xué)、化學(xué)、材料科學(xué)、生物學(xué)等多個領(lǐng)域。其核心原理是利用電場和磁場對帶電粒子進行加速和約束,使粒子達到極高的能量,從而為研究微觀世界
    的頭像 發(fā)表于 06-19 17:09 ?587次閱讀
    高壓放大器在粒子<b class='flag-5'>加速器</b>研究中的應(yīng)用

    粒子加速器?——?科技前沿的核心裝置

    粒子加速器全稱“荷電粒子加速器”,是一種利用電磁場在高真空環(huán)境中對帶電粒子(如電子、質(zhì)子、離子)進行加速和控制,使其獲得高能量的特種裝置。粒子加速器技術(shù)現(xiàn)已發(fā)展成為集高能物理、核物理、
    的頭像 發(fā)表于 06-19 12:05 ?3591次閱讀
    粒子<b class='flag-5'>加速器</b>?——?科技前沿的核心裝置

    基于雙向塊浮點量化的大語言模型高效加速器設(shè)計

    本文提出雙向塊浮點(BBFP)量化格式及基于其的LLMs加速器BBAL,通過雙向移位與重疊位設(shè)計顯著降低量化誤差,提升非線性計算效率,實現(xiàn)精度、吞吐量和能效的顯著優(yōu)化,相關(guān)成果被國際頂級會議 DAC 2025 接收。
    的頭像 發(fā)表于 05-14 13:40 ?2366次閱讀
    基于雙向塊浮點量化的大語言模型高效<b class='flag-5'>加速器</b>設(shè)計

    第三期 “亞馬遜云科技創(chuàng)業(yè)加速器” 正式啟動

    新 助力生成式 AI 初創(chuàng)企業(yè)釋放潛能,加速全球化進程 ? 北京 ——2025 年 4 月 18 日 亞馬遜云科技今日宣布,第三期 "亞馬遜云科技創(chuàng)業(yè)加速器" 正式啟動。亞馬遜云科技將聯(lián)合包括啟明創(chuàng)
    發(fā)表于 04-18 10:46 ?1260次閱讀

    小型加速器中子源監(jiān)測系統(tǒng)解決方案

    小型加速器中子源是一種基于先進加速器技術(shù)的中子產(chǎn)生裝置,憑借體積小、成本低、安全性高的優(yōu)勢,在醫(yī)學(xué)、工業(yè)、科研、安全、能源等多個領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力和價值。無論是用于醫(yī)學(xué)領(lǐng)域的精準(zhǔn)放療,還是工業(yè)
    的頭像 發(fā)表于 03-13 11:19 ?1393次閱讀
    小型<b class='flag-5'>加速器</b>中子源監(jiān)測系統(tǒng)解決方案