上期我們講到了RDMA的WHY,WHAT & HOW(AI網(wǎng)絡背景下RDMA的Why,What & How),這一期我們來談一談RDMA的不足。
Ethernet & RDMA
在過去30年中,每當我們談論網(wǎng)絡時,無論面對什么問題,答案始終是以太網(wǎng)。為什么?因為它提供了更優(yōu)的TCO,在可擴展性方面遠超任何競爭技術,并且擁有任何其他技術都無法比擬的生態(tài)系統(tǒng):各個供應商的產品能靈活適配、協(xié)同工作。它具備極其成熟的技術和極為巨大的規(guī)模經(jīng)濟優(yōu)勢。
RDMA網(wǎng)絡是AI/ML部署的關鍵推動者,它允許GPU以高利用率運行,并縮短作業(yè)完成時間(JCT)。通過提高效率,RDMA降低了擁有成本,并允許更快的訓練時間,這是微軟、Open AI、Meta等建設AI基礎的關鍵指標。

(圖片來源于網(wǎng)絡)
RoCE(RDMA over converged Ethernet)就是允許通過以太網(wǎng)網(wǎng)絡實現(xiàn)RDMA功能的技術,它同時具備RDMA的高效和以太網(wǎng)的生態(tài)優(yōu)勢,其諸多特性在多種計算場景中發(fā)揮了巨大作用。然而,隨著機器學習(ML)和人工智能(AI)的迅猛發(fā)展,原本并非針對超大規(guī)模集群設計的RDMA技術,在應對成千上萬節(jié)點的大規(guī)模組網(wǎng)時,其性能逐漸顯現(xiàn)出局限性。 隨著Mixture of Experts(MoE)等先進模型結構的出現(xiàn),模型參數(shù)邁入萬億規(guī)模。AI網(wǎng)絡正面臨更大規(guī)模、更高帶寬、更低延遲的一系列性能需求。 那么,現(xiàn)有的RoCE技術在應對這些挑戰(zhàn)時存在哪些不足?展望未來,RoCE技術又將迎來哪些創(chuàng)新和變革?以下是我們對RoCE技術當前局限性和未來發(fā)展趨勢的探討。
當前RDMA RoCE的一些技術局限
首先,雖然運用RoCE已經(jīng)成功實現(xiàn)了許多規(guī)模集群的組網(wǎng),隨著集群規(guī)模從萬卡向十萬卡演進,RoCE在大規(guī)模集群場景下面臨以下不足:
PFC 需要大量緩沖來實現(xiàn)無損傳輸
優(yōu)先級流控(PFC)是融合以太網(wǎng)(Converged Ethernet)的核心,為的是能在每個鏈路上實現(xiàn)無損傳輸。 使用 PFC 時,接收方會監(jiān)控可用的輸入緩沖區(qū)空間(buffer space),一旦緩沖空間低于與帶寬-延遲乘積(BDP = BW*RTT)相關的某個閾值,接收端會向發(fā)送端發(fā)送一個PAUSE幀。此時,BDP/2字節(jié)的數(shù)據(jù)已經(jīng)在傳輸中,而在發(fā)送端接收到PAUSE幀之前,它還會發(fā)送另外的BDP/2字節(jié)。因此,完全無損傳輸?shù)淖钚【彌_需求是BDP + MTU(最大傳輸單元),其中MTU為最大數(shù)據(jù)包大小。(這還只是數(shù)據(jù)包在接收端立即被處理的情況,任何一點延遲都會顯著降低鏈路利用率。)
覆蓋PAUSE消息傳輸延遲所需的BDP緩沖空間通常被稱為“余裕緩沖”(headroom buffer),類似于用于信用機制流量控制的緩沖空間,如InfiniBand或Fibre Channel中使用的流量控制機制。 在這些機制中,接收端主動向發(fā)送端發(fā)送信用額度(緩沖分配),以保持輸入緩沖區(qū)的平衡,而PFC機制則是在緩沖區(qū)過滿時才反應。這兩種機制各有優(yōu)點——信用額度可以主動傳向源頭,而PFC則可以更具反應性(遲綁定),在為不同的源鏈路分配共享緩沖空間時進行調節(jié)。兩種機制本質上都需要為每個鏈路保留BDP的空間,以覆蓋鏈路的往返控制延遲,這部分空間在高效轉發(fā)中是無法使用的。
實際上,緩沖空間對于處理變化的流量峰值和進行時間和空間上的負載均衡至關重要。僅僅是所需的余裕緩沖,在不冒丟包風險的情況下無法用于其他用途,這對下一代交換機的擴展帶來了巨大挑戰(zhàn)。
主流的交換機廠商如Broadcom、Marvell和Cisco等都已推出了50T交換機以滿足高帶寬、低時延、零丟包的網(wǎng)絡需求,以RTT 3~5微秒估算,以51.2T(64個800G)的交換機而言,BDP大小約33MB左右。隨著未來交換機吞吐量的增加,buffer size(約可以認為是BDP)也會繼續(xù)增加。(見圖a)(圖片展示的buffer size是只考慮交換機吞吐量作為變量的情況,實際RTT也會有所變化)

(圖源:Datacenter Ethernet and RDMA: Issues at Hyperscale)
而隨著傳輸距離的增加,對buffer size的要求也會急劇增加。(見圖b)
受害流、擁塞樹、PFC風暴和死鎖
另一個問題源于 PFC 會暫停整個流量類別以及其中的所有流量。這會導致受害流的出現(xiàn):假設有兩個流:A和B共享一條鏈路L。A沒有擁塞,可以以全帶寬發(fā)送。但B在某個下游端口被阻塞,填滿了L的輸入緩沖區(qū)。最終,L 分配的緩沖區(qū)會被B的數(shù)據(jù)包填滿,L會發(fā)送一個暫停幀。這一幀也會暫停A,而A本可以獨立傳輸——因此,A因B的暫停而受害。即,未發(fā)生擁塞的流可能會受到其他擁塞流的影響。這種現(xiàn)象也被稱為隊首阻塞(Head of Line Blocking)。
由于下游端口的任何擁塞都會填滿上游的緩沖區(qū),除非端點擁塞控制協(xié)議做出反應,PFC 事件可以快速形成一個“擁塞樹”,這種擁塞樹會順著受害流在網(wǎng)絡中反向擴展。擁塞樹是無損網(wǎng)絡中的常見問題,有時也被稱為 PFC 風暴 。

(圖片來源于網(wǎng)絡)
而且任何具有有限緩沖的無損方案在路由允許形成循環(huán)時都會遭遇死鎖問題。

(圖片來源于網(wǎng)絡)
Go-back-N 重傳
RoCE是為遵循 InfiniBand 的有序和基于信用的無損傳輸而設計的非常簡單的硬件。 這意味著只有在數(shù)據(jù)包因比特錯誤而損壞時,才會丟棄數(shù)據(jù)包,這種情況非常少見。RoCE的重傳邏輯要求所有數(shù)據(jù)包必須按順序到達數(shù)據(jù)流中。這意味著第一個數(shù)據(jù)包必須在第二個數(shù)據(jù)包之后到達,第三個數(shù)據(jù)包必須在第二個數(shù)據(jù)包之后到達,以此類推。但如果數(shù)據(jù)包在RDMA數(shù)據(jù)流中丟失,比方說第五個數(shù)據(jù)包丟失,但后續(xù)數(shù)據(jù)包(六、七、八)已成功傳輸,“Go-back-N”重傳技術會告訴系統(tǒng),“你丟失了第五個數(shù)據(jù)包,所以我需要你重新傳輸數(shù)據(jù)包五、六、七和八。”而大量的重傳會嚴重影響網(wǎng)絡性能。
簡單的 Go-back-N 方案還有一個更大問題是,它不支持多路徑或亂序交付。但支持亂序交付的其他方案則需要等待發(fā)送方的超時到期,這可能導致更高的恢復時間和抖動。因此,在設計新的傳輸協(xié)議時,必須仔細考慮所有這些權衡。
擁塞控制與其他流量的共存
RoCE 的默認擁塞控制基于一種無損傳輸前提下的速率控制機制。數(shù)據(jù)中心通常使用 DCQCN、TIMELY和 HPCC 等機制,構建在 RoCE 的基礎上改善流量傳輸。但現(xiàn)在大多數(shù) RoCE 部署使用非標準的擁塞控制機制,需要精細調整許多參數(shù),例如 ECN 閾值、減速因子、時間間隔等,這使得不同供應商,甚至同一供應商的不同硬件代之間的互操作性變得困難。這是因為擁塞控制仍然是一個艱難的問題,不同的工作負載可能需要經(jīng)過調優(yōu)的協(xié)議版本。
目前不支持智能協(xié)議棧
隨著網(wǎng)絡開銷在數(shù)據(jù)中心工作負載中的重要性日益增加,需要設計出更加智能的協(xié)議棧。新興的智能網(wǎng)卡 (Smart NIC) 為這一領域帶來了新的機會,用戶可配置的內核可以在 NIC 上執(zhí)行數(shù)據(jù)包和協(xié)議處理 。
比如論文《sPIN: High-performance streaming Processing In the Network》中提到的“sPIN”新型網(wǎng)絡處理模型,它是一種可編程的網(wǎng)絡接口控制器(NIC),通過硬件加速在網(wǎng)絡層直接處理數(shù)據(jù)。支持用戶自定義的程序在數(shù)據(jù)到達時進行處理,避免數(shù)據(jù)包先被傳輸?shù)椒掌鞫嗽偬幚淼难舆t。該系統(tǒng)結合了網(wǎng)絡處理器和可編程硬件(如FPGA)的優(yōu)勢,能夠在數(shù)據(jù)傳輸過程中執(zhí)行簡單的計算任務,比如數(shù)據(jù)壓縮、過濾等操作。
系統(tǒng)層面的問題
隨著鏈路層和端到端延遲的增加,系統(tǒng)也會面臨更多問題。高延遲會導致緩沖區(qū)占用增加、能耗上升,并使擁塞控制效率降低。特別是對于那些傳輸速度超過單個往返時間(RTT)的消息,依賴接收端反饋的擁塞控制機制變得無效,導致小消息引發(fā)的不良 incast 問題變得更加嚴重或頻繁。
此外,RDMA固有的語義復雜性和安全性問題也應引起關注。暴露進程本地的虛擬地址會引發(fā)安全隱患。路由和負載均衡仍然是挑戰(zhàn),尤其是在數(shù)據(jù)中心和 HPC 網(wǎng)絡中,不同的系統(tǒng)架構需要不同的機制來優(yōu)化網(wǎng)絡流量和消息處理順序。
那么,現(xiàn)在有哪些改進思路呢?
RoCE改進建議
改進流控機制
當前的PFC機制由于需要大量緩沖區(qū)并且無法精細地管理個別流量,可以通過更加細粒度的流量控制方法來解決這些問題。例如,使用基于流的擁塞追蹤而不是基于優(yōu)先級的追蹤,可以有效減少受害流現(xiàn)象。同時,通過動態(tài)調整擁塞優(yōu)先級(如擁塞隔離技術)也可以有效緩解擁塞問題。
擁塞管理與路由改進
針對擁塞樹和PFC風暴的問題,可以使用更復雜的流量監(jiān)控和管理機制,例如在交換機中維護每個流的狀態(tài),以便更好地追蹤擁塞情況。此外,動態(tài)調整流量優(yōu)先級或采用無擁塞路由策略,也可以避免受害流和擁塞樹的產生。
增強重傳機制
針對Go-back-N機制的局限性,可以采用選擇性重傳(Selective re-transmission)或支持亂序傳輸?shù)臋C制,以減少不必要的數(shù)據(jù)重傳。例如,最新的RoCE適配器已經(jīng)引入了選擇性重傳技術,但仍需進一步優(yōu)化,尤其是在處理多路徑傳輸時。
展望未來
隨著計算任務的復雜性和數(shù)據(jù)規(guī)模的增加,AI網(wǎng)絡面臨的壓力也越來越大。未來的發(fā)展方向不僅包括改進現(xiàn)有的RoCE技術,還包括探索新的網(wǎng)絡拓撲、流控和擁塞管理方法。
RoCE技術的進一步發(fā)展需要與新的網(wǎng)絡需求相適應,如機密計算、地理復制數(shù)據(jù)中心和多租戶環(huán)境等。這些新興技術和應用場景將推動下一代高性能AI網(wǎng)絡的創(chuàng)新,確保智算中心能夠在極端工作負載下保持高效穩(wěn)定的運行。
因此,Ultra Ethernet提出了解決RDMA問題的構想,稱之為“Ultra Ethernet Transport”。包括奇異摩爾在內的UEC成員們正在采取一系列措施,目標是建立一個具有高彈性、高性能的令人難以置信的強大網(wǎng)絡,在一個非常穩(wěn)健的網(wǎng)絡環(huán)境中實現(xiàn)超過十萬個節(jié)點的可擴展性,并在開放標準框架內運行。(構建更完善、更高效的AI網(wǎng)絡基礎設施:UEC 超以太聯(lián)盟最新進展)
Broadcom公司高級副總裁Ram Velaga說,在ML/AI的世界里,不會有一家公司提供所有GPU,也不會有一家公司提供所有互連解決方案。我們實現(xiàn)可擴展性的唯一方法是建立一個生態(tài)系統(tǒng),由多個供應商提供加速器。這個生態(tài)系統(tǒng)的生存依賴于構建一個開放的、基于標準的、高性能的和具有成本效益的互連架構。以太網(wǎng)是唯一的選擇,無論是昨天、今天還是明天。
-
以太網(wǎng)
+關注
關注
41文章
5997瀏覽量
180795 -
網(wǎng)絡
+關注
關注
14文章
8264瀏覽量
94696 -
AI
+關注
關注
91文章
39755瀏覽量
301346 -
云交換機
+關注
關注
0文章
2瀏覽量
6137 -
RDMA
+關注
關注
0文章
99瀏覽量
9615
原文標題:Kiwi Talks | 超大規(guī)模下的以太網(wǎng)RDMA的局限與展望
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
RoCE與IB對比分析(一):協(xié)議棧層級篇
RDMA簡介1之RDMA開發(fā)必要性
RDMA簡介3之四種子協(xié)議對比
RDMA over RoCE V2設計2:ip 整體框架設計考慮
RDMA設計1:開發(fā)必要性1之設計考慮
RDMA設計5:RoCE V2 IP架構
RDMA設計12:融合以太網(wǎng)協(xié)議棧設計1
工業(yè)以太網(wǎng)交換技術原理
用NVIDIA NetQ 4.0.0實現(xiàn)網(wǎng)絡質量和可靠性監(jiān)測
RDMA網(wǎng)卡相比以太網(wǎng)卡的優(yōu)勢在哪里呢?
數(shù)據(jù)中心以太網(wǎng)和RDMA:超大規(guī)模環(huán)境下的問題
什么是RDMA?什么是RoCE網(wǎng)絡技術?
深度解讀RoCE v2的核心技術原理
加速網(wǎng)絡性能:融合以太網(wǎng) RDMA (RoCE) 的影響
RDMA over RoCE V2設計2:ip 整體設計考慮
以太網(wǎng)RDMA RoCE的技術局限
評論