国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英特爾? AMX助金山云為用戶提供更高效經濟的AI服務,Stable-Di?usion模型推理性能提升近5倍

英特爾中國 ? 來源:未知 ? 2023-08-04 20:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能已經成為推動數字化創新的重要動力,伴隨著 AIGC 等應用的快速落地,深度學習模型規模與復雜度不斷提升,數據量也持續增長,人工智能算力供給與需求之間的矛盾正在日趨凸顯。用戶希望優化硬件、軟件和算法,在保證模型精度和時延等指標的前提下,提升人工智能端到端流程的性能表現,從而充分釋放硬件的潛能,并降低系統總體擁有成本 (TCO),加速人工智能技術的創新。

生成式人工智能(AIGC) 等創新浪潮驅動了人工智能的新一輪增長,模型訓練和模型推理成為云服務器的重要負載。要滿足人工智能領域的市場需求,云服務提供商需要解決以下挑戰:如何加速數據清理、模型推理等人工智能端到端工作流程中的多種工作負載,加快平臺的一站式性能。如何高效使用CPU等現有的硬件資源,并且利用客戶公有云、私有云和混合云中的服務器資源,以降低硬件成本。如何增強云服務器的靈活性,使其能夠在復雜場景中敏捷擴展,支撐傳統負載與人工智能等新型工作負載高效運行的需求。

為了幫助用戶加速人工智能端到端流程,特別是提升人工智能推理性能,基于第四代英特爾 至強 可擴展處理器的金山云第七代性能保障型云服務器X7進行了針對性優化。服務器采用了處理器內置的英特爾 高級矩陣擴展(英特爾 AMX)加速器,并融合了金山云自主創新的加速技術,能夠有效提高人工智能模型的推理性能,同時發揮云服務器在敏捷性、擴展性等方面的優勢,助力客戶挖掘人工智能時代的價值。

第四代英特爾 至強 及英特爾 AMX使金山云服務器模型推理性能提升3.97倍 - 4.96倍

金山云第七代性能保障型云服務器 X7 搭載英特爾 至強 鉑金 8458P 處理器,網絡帶寬升級至100G,同時支持掛載極速云盤 ESSD ,整體機型在計算、網絡、存儲多維度進行了深度優化,可為用戶提供計算速度更快、網絡吞吐更大以及存儲更加高效的云服務。

第四代英特爾 至強 可擴展處理器通過創新架構增加了每個時鐘周期的指令,每個插槽多達 60個核心,支持 8 通道DDR5內存,有效提升了內存帶寬與速度,并通過PCIe 5.0 (80個通道)實現了更高的PCIe帶寬提升。第四代英特爾 至強 可擴展處理器提供了出色性能和安全性,可根據用戶的業務需求進行擴展。借助內置的加速器,用戶可以在人工智 能、分析、云和微服務、網絡、數據庫、存儲等類型的工作負載中獲得優化的性能。通過與強大的生態系統相結合,第四代英特爾 至強 可擴展處理器能夠幫助用戶構建更加高效、安全的基礎設施。

wKgaomToPQOAVK3pAAKLtfLF2KM098.png

圖:第四代英特爾 至強 可擴展處理器

第四代英特爾至強可擴展處理器在人工智能性能上更進一步,內置了創新的英特爾 AMX 加速引擎。英特爾 AMX 針對廣泛的硬件和軟件優化,進一步增強了前代技術——矢量神經網絡指令 (VNNI) 和 BF16,從一維向量發展為二維矩陣,能夠有效利用計算資源,提高高速緩存利用率,以及避免潛在的帶寬瓶頸,從而可顯著增加人工智能應用程序的每時鐘指令數 (IPC),為人工智能工作負載 中的訓練和推理帶來顯著的性能提升。

在計算方面,通過采用最新的第四代英特爾至強 可擴展處理器,金山云新一代云服務器X7計算性能較上一代最大提升60%5 ,同時借助內置的英特爾AMX 原生人工智能加速能力,大幅提高了云服務器的整體性能,更加適用于計算密集型、深度學習等業務場景。 在內存方面,金山云新一代云服務器 X7 支持八通道 DDR5 內存,單條內存帶寬高達 4800MT/s,對比上一代實例性能提升50%6 ,更加適用于內存計算等數據密集型業務場景,服務深度學習以及人工智能相關領域。 在網絡方面,金山云新一代云服務器 X7 的物理網絡升級至 2x 100G,單虛機內網吞吐最高提升至 100G,PPS 提升至最高 2400 萬,連接數最高支持 400 萬,網絡性能大幅提升7 在存儲方面,金山云新一代云服務器 X7 支持掛載極速云盤 ESSD,單盤吞吐最高提升至 4GB/s,IOPS 提升至最高 100 萬,訪問延時降低至 0.2ms ,存儲能力顯著優化8

得益于第四代英特爾至強 可擴展處理器內置的英特爾AMX 技術,金山云新一代云服務器 X7 加速了人工智能推理性能,并在AIGC等負載中有著卓越的表現。

金山云測試了金山云新一代云服務器 X7在Stable-Di?usion模型推理中的性能表現。Stable- Di?usion是一種基于機器學習的生成 式人工智能模型,能夠根據文本生成高分辨率圖像。Stable-Di?usion一般需要數秒完成圖片生成,計算量極大,其主要性能瓶頸在多頭注意力計算部分 (MHA)。

第四代英特爾至強 可擴展處理器在Stable-Di?usion模型推理中有著卓越的性能表現,這源于其在算法上面的優化。針對該模型的 MHA 計算瓶頸,英特爾基于PyTorch 優化的 Intel-Extension-for-PyTorch (IPEX) 插件在2.0 版本發布了基于至強 可擴展處理器平臺的Flash Attention算法,主要內容包括以合適的尺寸拆分矩陣計算,實現更高效的緩存利用;使用張量 AMX- BF16 加速MHA矩陣計算,達到更快的速度;將計算緩存區與線程綁定,實現更少的內存開銷。

在搭載英特爾至強 鉑金 8458P處理器的金山云新一代云服務器X7上,雙方對 Stable-Di?usion模型推理性能進行了測試。測試數據如圖所示,相較優化之前的模型,在使用 IPEX 2.0 BF16優化之后,Stable-Di?usion模型推理性能提升了3.97倍- 4.96倍9

wKgaomToPQOAKaQFAAFILaX_UTU759.png

圖:Stable-Diffusion 模型優化前后性能對比10

賦能云服務器AI性能提升,英特爾攜手合作伙伴為云上AI用戶提供既高效又經濟的解決方案

云服務器已經成為用戶擴展人工智能創新,承載模型訓練、模型推理等應用需求的重要選擇,通過采用內置英特爾AMX 加速器的四代英特爾 至強 可擴展處理器,金山云第七代性能保障型云服務器X7能夠顯著加速AIGC等模型的性能表現,在端到端人工智能流程中的優勢突出。而且,該方案不需要部署獨立的加速器,因此在經濟性方面有著更佳的表現。具體來講,它為用戶的云上業務帶來的收益包括:

更高的性能,能夠滿足廣泛實際應用場景的對于性能的需求。特別是在人工智能性能方面,金山云新一代云服務器 X7 能夠有效加速AIGC等應用的運行。 通過英特爾 AMX 的應用以及算法優化,充分釋放了硬件潛力,有效利用服務器資源,從而降低了端到端人工智能應用流程的TCO。 不受限于特定應用類型,能夠靈活應對深度學習、數據庫、高網絡收發包等負載的支撐需求,實現更高的敏捷性與擴展性。

在當前合作成果的基礎上,英特爾與金山云還將對第七代性能保障型云服務器X7進行進一步合作優化,包括驗證服務器在更多場景中的性能表現、通過軟件與算法優化進一步釋放硬件潛力等,進而為用戶提供更加卓越的云服務。同時,英特爾也將通過更多云服務合作伙伴,為云上的AI用戶提供更高效、經濟的解決方案。

參考資料:

1 數據來源自第四代英特爾 至強 可擴展處理器的最大核數(60 核)與第三代英特爾 至強 可擴展處理器的最大核數(40 核)的比較。

2 詳細配置信息請訪問:intel.com/processorclaims,選擇 “第四代英特爾 至強 可擴展處理器”,查看編號“G2”。實際性能受使用情況、配置和其他因素的差異影響。

3 數據來源自第四代英特爾 至強 可擴展處理器(80 條 PCIe 5.0 通道)與第三代英特爾 至強 可擴展處理器(64 條 PCIe 4.0 通道)的比較。

4詳細配置信息請訪問:intel.com/processorclaims,選擇 “第四代英特爾 至強 可擴展處理器”,查看編號“G1”。實際性能受使用情況、配置和其他因素的差異影響。

5,6,7,8 https://www.ksyun.com/nv/activity/X7launch,截止 2023 年 6 月。

9,10 數據援引自截止 2023 年 6 月金山云內部測試結果。測試配置:英特爾 至強 鉑金 8458P 處理器,48vcore,HuggingFace stabilityai/stable-diffusion-2-1。英特爾并不控制或審計第三方數據。請您審查該內容,咨詢其他來源,并確認提及數據是否準確。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10301

    瀏覽量

    180430
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11277

    瀏覽量

    224956

原文標題:英特爾? AMX助金山云為用戶提供更高效經濟的AI服務,Stable-Di?usion模型推理性能提升近5倍

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    發力圖形工作站和AI推理市場,英特爾大顯存GPU亮相灣芯展

    英特爾發布了面向專業的銳炫Pro B50和B60。這兩款顯卡比較RTX2000和5660Ti,有哪些性能上的優勢?在支持AI推理工作站和大模型
    的頭像 發表于 10-22 13:40 ?1.1w次閱讀
    發力圖形工作站和<b class='flag-5'>AI</b><b class='flag-5'>推理</b>市場,<b class='flag-5'>英特爾</b>大顯存GPU亮相灣芯展

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發表于 09-23 14:45 ?919次閱讀
    使用NVIDIA NVLink Fusion技術<b class='flag-5'>提升</b><b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    英特爾Gaudi 2E AI加速器DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現已為DeepSeek-V3.1提供深度優化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、
    的頭像 發表于 08-26 19:18 ?3023次閱讀
    <b class='flag-5'>英特爾</b>Gaudi 2E <b class='flag-5'>AI</b>加速器<b class='flag-5'>為</b>DeepSeek-V3.1<b class='flag-5'>提供</b>加速支持

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    網絡智能診斷平臺。通過對私有化網絡數據的定向訓練,信而泰打造了高性能、高可靠性的網絡診斷模型,顯著提升AI輔助診斷的精準度與實用性。該方案實現了網絡全流量深度解析能力與
    發表于 07-16 15:29

    主控CPU全能選手,英特爾至強6助力AI系統高效運轉

    2025年3月,英偉達發布了DGX B300 AI加速計算平臺。2025年5月,英特爾發布了三款全新英特爾至強6性能核處理器,其中一款677
    的頭像 發表于 06-27 11:44 ?879次閱讀
    主控CPU全能選手,<b class='flag-5'>英特爾</b>至強6助力<b class='flag-5'>AI</b>系統<b class='flag-5'>高效</b>運轉

    直擊Computex 2025:英特爾重磅發布新一代GPU,圖形和AI性能躍升3.4

    電子發燒友原創? 章鷹 5月19日,在Computex 2025上,英特爾發布了最新全新圖形處理器(GPU)和AI加速器產品系列。包括全新英特爾銳炫? Pro B系列GPU——
    的頭像 發表于 05-21 00:57 ?7467次閱讀
    直擊Computex 2025:<b class='flag-5'>英特爾</b>重磅發布新一代GPU,圖形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>躍升3.4<b class='flag-5'>倍</b>

    直擊Computex2025:英特爾重磅發布新一代GPU,圖形和AI性能躍升3.4

    5月19日,在Computex 2025上,英特爾發布了最新全新圖形處理器(GPU)和AI加速器產品系列。包括全新英特爾銳炫? Pro B系列GPU——
    的頭像 發表于 05-20 12:27 ?5443次閱讀
    直擊Computex2025:<b class='flag-5'>英特爾</b>重磅發布新一代GPU,圖形和<b class='flag-5'>AI</b><b class='flag-5'>性能</b>躍升3.4<b class='flag-5'>倍</b>

    英特爾發布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準專業用戶AI開發者的英特爾銳炫Pro GPU系列,發布英特爾? Gaudi 3 AI
    發表于 05-20 11:03 ?1844次閱讀

    更高效更安全的商務會議:英特爾聯合海信推出會議領域新型垂域模型方案

    2025年4月16日,北京 ——在今日召開的專業視聽行業的年度盛會InfoComm China 2025上,英特爾攜手海信聯合發布海信自研端側會議領域垂域模型解決方案,助力商務會議更加安全、高效
    的頭像 發表于 04-21 09:50 ?832次閱讀
    <b class='flag-5'>更高效</b>更安全的商務會議:<b class='flag-5'>英特爾</b>聯合海信推出會議領域新型垂域<b class='flag-5'>模型</b>方案

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    的端側部署,Token產生速度提升了40%,讓端側大模型擁有更高的計算效率和推理性能,使端側AI交互響應更及時,
    發表于 04-13 19:52

    1.9性能提升!英特爾至強6在MLPerf基準測試中表現卓越

    關鍵項目中,性能表現卓越。測試結果顯示,相較于上一代產品,該處理器的AI性能實現了高達1.9的顯著提升,這也充分顯示了至強6處理器作為現代
    的頭像 發表于 04-07 10:58 ?674次閱讀

    英特爾酷睿Ultra AI PC上部署多種圖像生成模型

    全新英特爾酷睿Ultra 200V系列處理器對比上代Meteor Lake,升級了模塊化結構、封裝工藝,采用全新性能核與能效核、英特爾硬件線程調度器、Xe2微架構銳炫GPU、第四代NPU等,由此也帶來了CPU
    的頭像 發表于 04-02 15:47 ?1484次閱讀
    在<b class='flag-5'>英特爾</b>酷睿Ultra <b class='flag-5'>AI</b> PC上部署多種圖像生成<b class='flag-5'>模型</b>

    適用于數據中心和AI時代的800G網絡

    數據中心依賴數千甚至上萬個GPU集群進行高性能計算,對帶寬、延遲和數據交換效率提出極高要求。 AI:以生成式AI核心的
    發表于 03-25 17:35

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 NVIDIA 發布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的
    的頭像 發表于 03-20 15:03 ?1231次閱讀

    英特爾展示基于至強6處理器的基礎網絡設施

    ? 集成AI功能的英特爾至強6系統級芯片,與前幾代產品相比,可帶來高達2.4的無線接入網(RAN)容量提升1,和70%的每瓦性能
    的頭像 發表于 03-08 09:24 ?1047次閱讀