伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepSeek MoE架構下的網絡負載如何優化?解鎖90%網絡利用率的關鍵策略

星融元Asterfusion ? 2025-04-28 12:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能技術快速發展的浪潮下,現代數據中心網絡正面臨著前所未有的挑戰。GPT大模型的參數量已突破萬億級別,自動駕駛訓練需要處理PB級的場景數據,這些都使得AI計算集群規模呈指數級增長。

根據OpenAI披露的數據,GPT-4訓練使用的GPU數量已超過25,000個,這種大規模并行計算架構對網絡性能提出了嚴苛要求:網絡傳輸時延需要控制在微秒級,帶寬利用率必須達到80%以上,任何網絡抖動都會直接導致算力資源的閑置浪費。

統計數據顯示,傳統以太網的平均利用率長期徘徊在35%-40%,這意味著超過60%的網絡帶寬資源處于閑置狀態。這種低效不僅造成巨額硬件投資浪費,更成為制約AI訓練效率的關鍵瓶頸。

傳統以太網的困境

網絡利用率作為衡量實際傳輸流量與理論帶寬比值的核心指標,在AI計算場景中直接決定模型訓練周期。這種效率瓶頸源于多重技術桎梏:

  • 流量復雜度倍增:現代數據中心混合承載著AI訓練的長流(Long Flow)、推理服務的短流(Short Flow)、存儲復制的大包(Jumbo Frame)以及管理信令的小包(Mouse Flow)。這種流量形態的多樣性導致網絡必須按"峰值突發量×安全冗余"的超配模式建設,造成非峰值期大量帶寬閑置。
  • 架構性阻塞難題:經典的接入-匯聚-核心三級架構存在天然的收斂比限制。以典型4:1收斂比設計為例,當接入層40G鏈路滿載時,匯聚層100G鏈路的理論利用率僅能達到80%,若考慮流量潮汐效應,實際利用率常低于50%。
  • 丟包引發的鏈式反應:傳統QoS機制采用尾丟棄(Tail Drop)或WRED隨機丟棄策略應對擁塞,這種"先污染后治理"的方式觸發TCP超時重傳,導致有效帶寬被重傳數據重復占用。實測表明,1%的丟包率即可造成吞吐量下降40%。
  • 流控機制鈍化:基于ECN的擁塞通知僅能傳遞1bit信息,終端設備需通過"探測-降速-恢復"的試探性調節適應帶寬變化。這種開環控制方式在應對AI訓練中的All-Reduce等集合通信時,調節延遲常超過100ms,造成帶寬利用的階段性塌陷。
  • 路徑調度失衡:依賴五元組哈希的ECMP算法,在面對AI訓練中持續時間長達數小時、帶寬需求穩定的"大象流"時,極易引發路徑選擇的極化現象。某知名云廠商的故障案例顯示,40%的等價鏈路處于空載狀態時,剩余60%鏈路卻持續過載丟包。

超級以太網的技術突圍

wKgZO2gO_XWATJP1AABv0CZrekE018.png

為突破85%網絡利用率的目標,超級以太網聯盟(UEC)提出系統性解決方案:

1、專用通道隔離:利用AI流量可預測特性構建物理隔離的RoCEv2專用網絡。某頭部AI實驗室的實踐表明,通過分離訓練流量與存儲流量,網絡有效利用率提升27%,GPU空閑等待時間減少41%。

2、無阻塞拓撲:我們需要設計無阻塞的網絡結構,如CLOS、Dragonfly, Torus, MegaFly, SlimFly等。目前,CLOS是最流行的網絡結構 [3],在這個網絡結構中,總接入帶寬與總匯聚帶寬相等,并容易在縱向和橫向上擴展,在宏觀上實現了無阻塞。然而由于流量不均衡和微突發現象的存在,在局部鏈路上,擁塞仍然會存在。

3、精準擁塞控制升級:當In-Cast擁塞產生后,目前主要通過端到端的流控機制來緩解這一問題。例如,基于ECN的DCQCN/DCTCP技術通過調節源端的發送流量速率,適應網絡的可用帶寬。由于ECN攜帶的信息只有1個bit,這種調節方式不夠精確。為了解決這一問題,UEC傳輸層(UET,Ultra Ethernet Transport Layer)提出了以下改進措施:

  • 加速調整過程:UET通過測量端到端延遲來調節發送速率,并根據接收方的能力通知發送方調整速率,快速達到線速。
  • 基于遙測:來自網絡的擁塞信息可以通告擁塞的位置和原因,縮短擁塞信令路徑并向終端節點提供更多信息,從而實現更快的擁塞響應。

4、包噴灑:突破傳統流級調度的"包噴灑"技術,通過動態路徑選擇算法將數據包離散分布在多條路徑,從而更充分地利用網絡帶寬。由于這種方式會導致目的地接收到的報文亂序,因此需要修改傳輸協議,允許包亂序到達,并在目的地重新組裝為完整的消息。然而,重組過程帶來了額外的開銷,增加了整個流的延遲,且目的端需要等待該流的所有包傳輸完畢后才能處理整個消息,無法實現流水線操作。

實踐突破

作為UEC核心成員,星融元通過三大技術創新將網絡利用率推升至90%:

Flowlet

前面提到,基于流的ECMP容易造成負載不均衡,而包噴灑技術又帶來了額外的延遲。有沒有兩全其美的技術?flowlet應運而生。Flowlet是根據流中的“空閑”時間間隔將一個流劃分為若干片段。在一個flowlet內,數據包在時間上緊密連續;而兩個flowlet之間,存在較大的時間間隔。這一間隔遠大于同一流分片內數據包之間的時間間隔,足以使兩個流分片通過不同的網絡路徑傳輸而不發生亂序。

wKgZPGgO_bOANnCmAAB-f0iX4RA085.png

并行計算過程中,計算和通信是交替進行的。因而AI并行訓練和推理產生的流量是典型的flowlet。

當網絡發生擁塞時,可將flowlet調度到較空閑的鏈路上以緩解壓力。在AI訓練和推理網絡中,RDMA流通常較持久,訓練流可能持續數分鐘至數小時,推理流多為數秒至數分鐘,而flowlet則以微秒到毫秒級的短暫突發為主。這種基于flowlet的精細調度能有效優化流量分配,顯著降低網絡擁塞,從而提高網絡利用率。

基于遙測的路由

將傳統OSPF的靜態度量升級為時延、丟包、利用率等多維度動態權重。通過部署在Spine層的分布式決策單元,實現10ms級別的全網狀態同步與路徑重計算。某自動駕駛公司的實測表明,突發流量下的路徑切換延遲從秒級降至毫秒級。

基于遙測的路由(Int-based Routing)技術結合OSPF、BGP和在網遙測(INT)技術,為網絡中任意一對節點之間計算多條路徑,每個路徑的開銷是動態測量的延遲,從而能夠根據實時的網絡負載進行路由,從而充分利用每個路徑的帶寬。

WCMP

ECMP技術將包、flowlet或整個流均勻的分布到多個路徑上,忽略了不同路徑上的實際負載。為了進一步提升網絡利用率。星融元采用加權代價多路徑(Weighted Cost Multiple Path)算法,基于遙測獲取的時延等信息,在時延更低的路徑上調度更多的流量,在時延更高的路徑上調度更少的流量,從而實現所有路徑的公平利用。在理想情況下,流量經過不同路徑的總時延是相等的,可充分利用所有可用帶寬。

隨著AI大模型參數規模突破10萬億,超級以太網正從技術概念演變為算力基礎設施的關鍵支柱。通過架構革新與協議棧重構,網絡利用率突破90%已具備工程可行性。這不僅意味著數據中心OPEX的大幅降低,更將推動AI訓練效率進入新的數量級,加速通用人工智能時代的到來。

【參考文獻】
[1] Ultra Ethernet Consortium, “Ultra Ethernet Introduction” 15th October 2024.
[2] Asterfusion, “Unveiling AI Data Center Network Traffic” https://cloudswit.ch/blogs/ai-data-center-network-traffic/.
[3] Asterfusion, “What is Leaf-Spine Architecture and How to Build it?” https://cloudswit.ch/blogs/what-is-leaf-spine-architecture-and-how-to-build-it/.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網絡
    +關注

    關注

    14

    文章

    8313

    瀏覽量

    95450
  • 負載均衡
    +關注

    關注

    0

    文章

    134

    瀏覽量

    12899
  • DeepSeek
    +關注

    關注

    2

    文章

    837

    瀏覽量

    3360
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于Arm架構服務器釋放更高CPU利用率

    在大型云服務提供商的數據中心中,CPU 利用率長期偏低,造成了大量資源閑置。根據 CAST AI 的分析,超過 1,000 個 CPU 的大型集群平均占用率僅約 17%[1],不同云服務商之間略有差異,但這一數據仍具有一定代表性。同時這也意味著云計算仍有巨大的降本增效空間
    的頭像 發表于 03-24 10:19 ?419次閱讀

    如何優化和維護您的光纖網絡以實現最佳性能

    與Mesh組網 采用環形拓撲結構,當主鏈路故障時自動切換至備用路徑,確保數據傳輸連續性。例如,在骨干網部署DWDM系統,單纖可實現96波×400G容量,顯著提升傳輸效率。 結合Mesh網絡架構,通過多節點互聯降低單點故障風險,提升鏈路
    的頭像 發表于 09-30 09:58 ?938次閱讀

    怎樣確定分布式光伏集群通信網絡負載均衡策略

    LZ-DZ100電能質量在線監測裝 確定分布式光伏集群通信網絡負載均衡策略,需結合集群的網絡拓撲、數據特征、設備特性及運行需求,通過 “現狀分析→目標設定→
    的頭像 發表于 08-22 10:10 ?667次閱讀
    怎樣確定分布式光伏集群通信<b class='flag-5'>網絡</b>的<b class='flag-5'>負載</b>均衡<b class='flag-5'>策略</b>?

    如何在NVIDIA Blackwell GPU上優化DeepSeek R1吞吐量

    開源 DeepSeek R1 模型的創新架構包含多頭潛在注意力機制 (MLA) 和大型稀疏混合專家模型 (MoE),其顯著提升了大語言模型 (LLM) 的推理效率。
    的頭像 發表于 08-12 15:19 ?4426次閱讀
    如何在NVIDIA Blackwell GPU上<b class='flag-5'>優化</b><b class='flag-5'>DeepSeek</b> R1吞吐量

    【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家

    邏輯,硬件性能的成本選擇,達到的效果, 最后是對人工智能的影響。 Deepseek在技術思路上,采用混合專家系統MoE架構(思維模塊),MoE則由多個專家模型組成,在處理任務時,它能夠
    發表于 07-22 22:14

    【「DeepSeek 核心技術揭秘」閱讀體驗】--全書概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構、訓練框架、推理階段優化、后訓練優化
    發表于 07-21 00:04

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    一、模型架構 在閱讀第三章關于 DeepSeek 的模型架構部分時,我仿佛打開了一扇通往人工智能核心構造的大門。從架構圖中,能清晰看到 Transformer 塊、前饋神經
    發表于 07-20 15:07

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優化、后訓練優化關鍵技術。從混合專家模型(
    發表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    有效降低整體運維成本l 優化人力資源:AI自動化處理大量重復性監控、初步分析與告警任務,釋放高級工程師精力,使其專注于更具戰略性的復雜問題與創新。l 提升資源利用率:AI可基于分析結果,提供網絡配置
    發表于 07-16 15:29

    海光DCU率先展開文心系列模型的深度技術合作 FLOPs利用率(MFU)達47%

    列模型的深度技術適配,預訓練模型FLOPs利用率(MFU)達到47%,在多個文本與多模態基準測試中取得SOTA水平。此次合作標志著國產算力基礎設施與大模型技術的協同創新進入新階段。 技術突破:異構計算架構賦能MoE模型高效訓練
    的頭像 發表于 07-01 14:35 ?2460次閱讀

    智算網絡路徑質量三要素:帶寬/隊列/時延在智能選路中的協同優化

    為了從根本上優化AI流量的傳輸效率并最大化集群利用率,我們設計并實踐了基于多維度網絡狀態感知的動態智能選路技術。該技術的核心創新在于,聚焦關鍵影響因子,摒棄單一指標,精準識別并引入在A
    的頭像 發表于 06-13 15:44 ?797次閱讀
    智算<b class='flag-5'>網絡</b>路徑質量三要素:帶寬/隊列/時延在智能選路中的協同<b class='flag-5'>優化</b>

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    章深入剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優化、后訓練優化關鍵技術。從混合專家模型(
    發表于 06-09 14:38

    雙智網絡概述和關鍵技術

    隨著5G網絡的規模商用,在精準保障差異化用戶體驗的同時提升5G網絡資源利用率,逐步成為網絡優化、演進與發展的核心命題。運營商希迫切望提升5G
    的頭像 發表于 06-09 13:51 ?1075次閱讀
    雙智<b class='flag-5'>網絡</b>概述和<b class='flag-5'>關鍵</b>技術

    拼版怎么拼好,板廠經常說利用率太低,多收費用?

    做板的時候,板廠經常說我拼版利用率太低,要多收取費用,哪位大神知道怎么算利用率
    發表于 05-14 13:42

    mes工廠管理系統:如何讓設備利用率提升50%?

    在制造業競爭日益激烈的今天,設備利用率直接決定了企業的盈利能力。許多工廠管理者都在思考同一個問題:如何在不增加設備投資的情況,讓現有產能發揮出最大價值?MES工廠管理系統正是解決這一難題的金鑰匙
    的頭像 發表于 05-09 15:55 ?917次閱讀
    mes工廠管理系統:如何讓設備<b class='flag-5'>利用率</b>提升50%?