97人妻精品一区二区三区久久久,精品处女,999色色

近日，華為云 AI 峰會在北京召開，華為云副總裁黃瑾發表主題演講，介紹了更多 CloudMatrix 384超節點技術優勢與細節。他指出，隨著大模型訓練和推理對算力需求的爆炸式增長，傳統計算架構已難以支撐 AI 技術的代際躍遷，超節點架構的誕生不僅是技術的突破，更是以工程化創新開辟 AI 產業的新路徑。華為云 CloudMatrix 384 超節點具備 MoE 親和、以網強算、以存強算、長穩可靠、朝推夜訓、即開即用六大領先技術優勢，以系統架構創新重新定義新一代 AI 基礎設施。

重新定義 AI 基礎設施架構，開辟算力新紀元

當前，大模型訓練從早期小模型在單卡訓練、小參數大模型在單機訓練，現在 MoE、長序列、多模態大模型都是在 AI 集群上訓練，AI 算力的瓶頸，從到單卡算力的瓶頸到單機內總線帶寬的瓶頸，到現在集群間通信帶寬的瓶頸，需求增長了 1 萬倍。

然而過去的 8 年里，單卡硬件的算力增長了 40 倍，但是節點內的總線帶寬只增長了 9 倍，跨節點的網絡帶寬只增長了 4 倍，這使得集群網絡通信成為當前大模型訓練和推理的最大挑戰。

黃瑾表示，面對這些挑戰，華為云創新性的推出采用全對等互聯架構的 CloudMatrix 384 超節點。這項技術創新跳出單點技術限制走向系統性、工程性的創新算力架構直面通信效率瓶頸、內存墻制約、可靠性短板三大技術挑戰。通過新型高速互聯總線實現 384 張卡互聯成為一個超級云服務器，最高提供 300Pflops 的算力規模，比業界同類產品領先 67%。

解碼六大優勢，CloudMatrix 384 超節點重構 AI 算力架構

目前，基于 CloudMatrix 的超節點集群已經在蕪湖、貴安、內蒙規模上線，黃瑾進一步深入解讀了六大技術創新點：

MoE 親和架構，從“小作坊”到“超級工廠”。在傳統架構下，MoE 模型訓練容易因通信延遲導致算力浪費，而 CloudMatrix 384 超節點的分布式推理平臺可以說是專為 MoE 大模型而生。黃瑾指出，對比一卡多專家的“小作坊模式”，超節點更像“大工廠模式”，通過高速互聯總線，能夠實現一卡一專家高效分布式推理，單卡的 MoE 計算和通信效率都大幅提升。這也是為什么有幾百個政務、零售、醫療、保險、制造、礦山、旅游等各行各業的客戶，基于華為云昇騰 AI 云服務部署 DeepSeek 模型的創新應用，例如智能助手、智能客服、互聯網搜索、內容創作等各種場景落地。

以網強算，雙層網絡破解“數據堵車”。當AI 算力走向規模化部署，單點的芯片性能不再是制約算力發展的唯一變量，如何由點及面地激活算力矩陣的共振效應，也是破解 AI 時代算力命題的關鍵一步。而釋放聯接力也正是超節點最大的創新突破之一，黃瑾介紹，傳統網絡像擁堵的城市道路，CloudMatrix 384 則構建了 AI 專屬高架橋，通過 MatrixLink 服務將單層網絡升級為兩層高速網絡，一層是超節點內部的 ScaleUp 總線網絡，確保超節點內 384 卡全對等高速無阻塞互聯，卡間超大帶寬 2.8T，納秒級時延；另一層是跨超節點間的 ScaleOut 網絡，可支持微秒級時延，資源彈性擴展；同時，基于全局拓撲感知的智能調度算法，保障客戶任務長穩運行。

以存強算，彈性內存改寫“算存綁定”。華為云首創了 EMS 彈性內存存儲，打破傳統 GPU 算力與顯存綁定的關鍵障礙，通過內存池化技術，實現顯存和算力解綁。一方面，用 EMS 替代 NPU 中的顯存，可使得首 Token 時延降低，最高降幅可達 80%；另一方面，當 NPU 的顯存不足時，EMS 獨立擴容，不必再通過堆 NPU 以獲得更多內存。同時，EMS 還支持算力卸載，這也使得系統吞吐量提升，有的場景達 100%的提升。總之，這一技術創新大幅提升了資源利用率、性能和吞吐量。

長穩可靠，故障自愈的“AI 醫生”。隨著模型訓練需求的不斷接入，大集群的運維難度大、復雜性高的問題日益凸顯。對此，華為云開發了昇騰云腦運維“1-3-10”標準，即 1 分鐘感知、3 分鐘定界、10 分鐘內恢復。通過 5 層壓測、靜默故障感知技術，昇騰云腦可將硬件故障感知率從 40%提升至 90%。同時，覆蓋計算、存儲、網絡、軟件四大種類故障模式庫也打通了全棧故障場景，這一全棧故障知識庫能夠覆蓋 95%常見問題以實現故障快速定界；在恢復機制上則，3 層快恢技術、快速建鏈技術、圖編譯緩存等技術能夠實現萬卡故障快速恢復。

朝推夜訓，算力資源“錯峰用電”。在大模型訓練中，提升算力利用率，避免算力閑置也是企業關心的重點之一。CloudMatrix384 超節點通過“訓推共池”“靈活調度”兩大關鍵技術實現朝推夜訓，白天進行模型推理，晚上閑時進行模型訓練，算力資源利用率可提升 30%以上。

即開即用，“算力水電”普惠模式。為助力客戶更好地專注業務模型開發，華為云已經在全國三大樞紐數據中心——烏蘭察布、貴安和蕪湖完成了超節點規模布局，支持百 TB 級的帶寬互聯，10 毫秒時延圈覆蓋全國 19 個城市群，讓客戶能夠第一時間享受到即開即用的 AI 算力資源。同時，華為云擁有專業的超節點運維團隊，在為客戶免去繁瑣的管理和維護的同時，保障資源的穩定運行。

做好智能世界云底座和使能器，加速行業智能躍遷

如今 AI 已經成為最有影響力的通用技術，如何將技術價值轉化為應用成果，成為千行百業面臨的核心課題。華為云超節點創新系統架構的背后，是華為云堅持“昇騰云服務支持百模千態，盤古大模型重塑千行萬業”的戰略。

黃瑾強調，一直以來華為云持續推動昇騰 AI 云服務全面升級，通過打磨昇騰云的訓練、推理的性能、可靠性和性價比，為中國乃至全球客戶提供好用、易用的 AI 算力云服務。現已全面適配了 DeepSeek 在內的 160 多個大模型，以云服務的方式，協助客戶進行模型的開發，訓練，托管和應用。昇騰 AI 云服務上線以來，面向政府、金融、零售、互聯網、交通、制造等行業已經服務六百多家創新先鋒企業，加速行業智能化應用的快速落地。

在充滿突破和創新的 AI 發展過程中，每一個階段都會產生大量的新技術、新模式，企業唯有抓住 AI 時代機遇，才能搶占發展先機。黃瑾表示，面向智能世界，華為云致力于做好行業數字化的“云底座”和“使能器”，堅定打造 AI 算力底座，以安全、穩定、高質量、持續創新的 AI 云服務，賦能千行萬業應用創新，攜手伙伴、客戶加速行業智能躍遷。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

云計算

云計算

+關注

關注
39

文章
8021

瀏覽量
144377
AI

AI

+關注

關注
91

文章
39755

瀏覽量
301360
華為云

華為云

+關注

關注
3

文章
2832

瀏覽量
19248

搜索歷史

華為云黃瑾：昇騰云CloudMatrix 384超節點六大科技創新，定義下一代AI基礎設施

評論