伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

RoCE與IB對比分析(二):功能應用篇

星融元 ? 來源:jf_55437772 ? 作者:jf_55437772 ? 2024-11-15 14:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

?【更多詳細內容,請訪問星融元官網https://asterfusion.com/】
在上一篇中,我們對RoCE、IB的協議棧層級進行了詳細的對比分析,二者本質沒有不同,但基于實際應用的考量,RoCE在開放性、成本方面更勝一籌。本文我們將繼續分析RoCE和IB在擁塞控制、QoS、ECMP三個關鍵功能中的性能表現。

擁塞控制

擁塞控制即用來減少丟包或者擁塞傳播,是傳輸層的主要功能,但需要借助鏈路層和網絡層的幫助。

RoCEv2 的擁塞控制機制

RoCEv2通過鏈路層PFC、網絡層ECN、傳輸層DCQCN三者協同配合,實現更高效的擁塞管理,可見,RoCEv2雖然使用了IB的傳輸層協議,但在擁塞控制方面有所不同。

基于優先級的流量控制(PFC)

PFC在RoCEv2中被用于創建無損的以太網環境,確保RDMA流量不因鏈路層擁塞而丟失。核心原理是下游控制上游某個通道開啟和停止發送數據包,控制方式是發送PFC Pause和Resume幀,觸發時機是根據下游SW的ingress的隊列數量是否達到某個閾值。

而PFC允許在一條以太網鏈路上創建8個虛擬通道,并為每條虛擬通道指定一個優先等級,允許單獨暫停和重啟其中任意一條虛擬通道,同時允許其它虛擬通道的流量無中斷通過。這一方法使網絡能夠為單個虛擬鏈路創建無丟包類別的服務,使其能夠與同一接口上的其它流量類型共存。

圖1 PFC工作機制

圖1 PFC工作機制

如圖1所示,DeviceA發送接口分成了8個優先級隊列,DeviceB接收接口有8個接收緩存(buffer),兩者一一對應(報文優先級和接口隊列存在著一一對應的映射關系),形成了網絡中 8 個虛擬化通道,緩存大小不同使得各隊列有不同的數據緩存能力。

當DeviceB的接口上某個接收緩存產生擁塞時,超過一定閾值(可設定為端口隊列緩存的 1/2、3/4 等比例),DeviceB即向數據進入的方向(上游設備DeviceA)發送反壓信號“STOP”,如圖中第7個隊列。

DeviceA接收到反壓信號,會根據反壓信號指示停止發送對應優先級隊列的報文,并將[數據存儲]在本地接口緩存。如果DeviceA本地接口緩存消耗超過閾值,則繼續向上游反壓,如此一級級反壓,直到網絡終端設備,從而消除網絡節點因擁塞造成的丟包。

顯式擁塞通知(ECN)

ECN(Explicit Congestion Notification)是一種IP頭部用于的擁塞控制的標記位,允許網絡設備在發生擁塞時標記數據包,而不是丟棄它們。

圖2 IP頭部前4幀示意圖

圖2 IP頭部前4幀示意圖

RoCEv2利用ECN位來標記發生擁塞的數據包,接收方在檢測到ECN標記后,發送CNP(Congestion Notification Packet)給發送方,后者通過擁塞控制算法(如DCQCN)調整發送速率。

數據中心量化擁塞通知(DCQCN)

DCQCN(Data Center Quantized Congestion Notification)是一種適用于RoCEv2的擁塞控制算法,是數據中心TCP(DCTCP)和量化通知算法的結合,最初在SIGCOMM'15論文"Congestion control for large scale RDMA deployments"中提出。DC-QCN算法依賴于交換機端的ECN標記。結合了ECN和速率限制機制,工作在傳輸層。當接收方檢測到ECN標記時,觸發CNP發送給發送方,發送方根據反饋調整發送速率,從而緩解擁塞。

綜上,PFC、ECN、DCQCN分別工作在鏈路層、網絡層和傳輸層。在RoCEv2中,它們被組合使用,以實現更高效的擁塞管理。

  • PFC :防止數據包在鏈路層被丟棄,提供無損傳輸,解決一段鏈路的問題。
  • ECN/DCQCN :發送方根據擁塞標記主動調整發送速率,減輕網絡負載。解決端到端網絡的問題。

InfiniBand 的擁塞控制機制

InfiniBand 的擁塞控制機制可分為三個主要部分:

基于信用的流量控制

IB在鏈路層實現基于信用的流量控制(Credit-based Flow Control),該機制實現了無損傳輸,是 InfiniBand 高性能的基礎。發送方根據接收方提供的信用(表示可用緩沖區空間)來控制數據包的發送,接收方在處理完數據包后發送信用給發送方,以允許繼續發送新的數據包,從而避免網絡擁塞和數據包丟失。

如下圖所示,發送方當前可用信用值2,通過流水線傳輸(pipelined transfer)連續向接收方發送數據包,但此時接收方緩沖區已滿,發送方會暫停發送新的數據包,直到接收方發送新的信用。

圖3 基于信用的流量控制示意圖

圖3 基于信用的流量控制示意圖

ECN機制

當網絡中的交換機或其他設備檢測到擁塞時,會在數據包的 IP 頭中標記 ECN(Explicit Congestion Notification)。接收方的 CA(Channel Adapter)接收到帶有 ECN 標記的數據包后,會生成擁塞通知包(CNP),并將其反饋給發送方,通知其網絡出現擁塞需要降低傳輸速率。

端到端擁塞控制

發送方的 CA 在收到 CNP 后,根據 InfiniBand 擁塞控制算法調整發送速率。發送方首先降低數據發送速率以緩解擁塞,之后逐步恢復發送速率,直到再次檢測到擁塞信號。這個動態調整過程幫助維持網絡的穩定性和高效性。IBA沒有具體定義特定的擁塞控制算法,通常由廠商定制實現。(HCA,Host Channel Adapters,or IB NIC)

圖4 端到端擁塞控制示意圖

圖4 端到端擁塞控制示意圖

RoCEv2與IB擁塞控制機制比較

兩者的擁塞控制機制比較如下:

RoCEv2InfiniBand
Link LayerPriority-based Flow ControlCredit-based Flow Control
Network LayerECN/CNPECN/CNP
Transport LayerDCQCNVendor-specific Congestion Control

可見,RoCE與IB的擁塞控制機制基本相同,區別在于IB的擁塞控制機制集成度較高,通常由單個廠家提供從網卡到交換機的全套產品,由于廠商鎖定,價格高昂。而RoCE的擁塞控制機制基于開放協議,可以由不同廠家的網卡和交換機來配合完成。

隨著大規模AI訓練和推理集群的擴展,集合通信流量導致了日益嚴重的擁塞控制問題,由此出現了一些新的擁塞控制技術,如基于In-band Network Telemetry (INT)的HPCC(High Precision Congestion Control),即通過精確的網絡遙測來控制流量,以及基于Clear-to-Send (CTS)的Receiver-driven traffic admission,即通過接收方的流量準入控制來管理網絡擁塞等。這些新技術在開放的以太網/IP網絡上更容易實現。

圖5 HPCC流控示意圖

圖5 HPCC流控示意圖

圖6 CTS流控示意圖

圖6 CTS流控示意圖

QoS

在RDMA網絡中,不光RDMA流量要獲得優先保證。一些控制報文,如CNP、INT、CTS,也需要特別對待,以便將這些控制信號無損、優先的傳輸。

  • RoCEv2的QoS

在鏈路層,RoCEv2采用ETS機制,為不同的流量分配不同的優先級,為每個優先級提供帶寬保證。

在網絡層,RoCEv2則使用DSCP,結合PQ、WFQ等隊列機制,為不同的流量分配不同的優先級和帶寬,實現更精細的QoS。

圖7 DSCP示意圖

圖7 DSCP示意圖

  • InfiniBand的QoS

在鏈路層,IB采用SL、VL及它們之間的映射機制,將高優先級的流量分配到專門的VL,優先傳輸。雖然VL仲裁表 (VL Arbitration Table)能夠通過分配不同的權重來影響和控制帶寬的分配,但這種方式不能保證每個VL的帶寬。

在網絡層,IB的GRH支持8個bit的Traffic Class字段,用于在跨子網的時候提供不同的優先級,但同樣無法保證帶寬。

由此可見,RoCE能夠為不同的流量類型提供更精細的QoS 保證和帶寬控制,而 InfiniBand 只能提供優先級調度,而非帶寬的明確保障。

ECMP

RoCE的ECMP

數據中心IP網絡為了高可靠和可擴展性,通常采用Spine-Leaf等網絡架構。它們通常在一對RoCE網卡之間提供了多條等價路徑,為了實現負載平衡和提高網絡拓撲的利用率,采用ECMP(Equal Cost Multiple Paths) 技術。對于給定的數據包,RoCE交換機使用某些數據包字段上的哈希(Hash)值在可能的多條等價路徑中進行選擇。由于可靠傳輸的要求,同一個RDMA操作應當保持在同一個路徑中,以避免由于不同路徑造成的亂序問題。

在IP網絡中,BGP/OSPF等協議均可以在任意拓撲上計算出等價路徑,然后由交換機數據平面基于IP/ UDP /TCP等頭部字段(如五元組)計算哈希值并輪流轉發到不同路徑上。在RoCE網絡中,為了進一步細分RDMA操作,可以進一步識別BTH頭部中的目的QP信息,從而實施更細粒度的ECMP。

InfiniBand的ECMP

在控制平面,IB的路由基于子網管理器,在拓撲發現的基礎上實現ECMP,但由于集中式的子網管理器與網絡設備分離,可能無法及時感知網絡拓撲的變化,進而實現動態的[負載均衡] 。

在數據平面,IB的ECMP同樣基于哈希計算和輪轉機制。

總結

  • 在擁塞控制方面,RoCE結合了PFC, ECN和DCQCN提供了一套開放的方案,IB則擁有基于Credit的一套高度集成的方案,但在應對大規模集合通信流量時均有所不足。
  • 在QoS方面,RoCE可以實現每個優先級的帶寬保證,而IB僅能實現高等級的優先轉發。
  • 在ECMP方面,兩者均實現了基于Hash的負載分擔。

總結來看,IB具備已驗證的高性能和低延時優勢,RoCEv2則在互操作性、開放性、成本效益方面更勝一籌,且從市場占比及認可度來看,RoCEv2逐漸比肩IB;但不得不承認的是,RoCE和IB在應對大規模AI訓練和推理中高帶寬、突發式和廣播型的集合通信流量時,均有所不足,而RoCE基于其廣泛的以太網生態系統,能夠更快速地擁抱新技術新協議,其潛力和可塑性更勝一籌,未來有望在網絡格局中扮演更重要的角色。


參考文檔:

https://zhuanlan.zhihu.com/p/643007675

https://blog.csdn.net/essencelite/article/details/135492115

https://support.huawei.com/enterprise/zh/doc/EDOC1100075566/d1e17776

https://www.researchgate.net/publication/4195833_Congestion_Control_in_InfiniBand_Networks

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 以太網
    +關注

    關注

    41

    文章

    6097

    瀏覽量

    181335
  • 協議
    +關注

    關注

    2

    文章

    619

    瀏覽量

    41158
  • iB
    iB
    +關注

    關注

    0

    文章

    5

    瀏覽量

    9612
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RDMA設計46:RoCE v2原語功能:單邊語義

    本博文主要交流設計思路,在本博客已給出相關博文約170,希望對初學者有用。注意這里只是拋磚引玉,切莫認為參考這就可以完成商用IP設計。 續上,為便于查看,給出表1部分表1 RoCE v2原語功能
    發表于 03-01 23:14

    RDMA設計45:RoCE v2 原語功能驗證與分析2

    本博文主要交流設計思路,在本博客已給出相關博文約170,希望對初學者有用。注意這里只是拋磚引玉,切莫認為參考這就可以完成商用IP設計。續上,為便于查看,給出表1部分 表1 RoCE v2原語功能
    發表于 02-26 07:52

    RDMA設計44:RoCE v2原語功能驗證與分析

    它是RoCE v2協議進行信息及數據交換的核心機制,也是DUT需要實現的核心機制之一,對該功能的仿真驗證需要考慮指令的提交數據包的組裝及發送、數據的DMA處理等。
    的頭像 發表于 02-25 09:26 ?243次閱讀
    RDMA設計44:<b class='flag-5'>RoCE</b> v2原語<b class='flag-5'>功能</b>驗證與<b class='flag-5'>分析</b>

    RDMA設計37:RoCE v2 子系統模型設計

    本博文主要交流設計思路,在本博客已給出相關博文160多,希望對初學者有用。注意這里只是拋磚引玉,切莫認為參考這就可以完成商用IP設計。 RoCE v2 子系統模型是用來模擬 RoCE v2
    發表于 02-06 16:19

    RDMA設計33:RoCE v2 接收模塊

    本博文主要交流設計思路,在本博客已給出相關博文約160,希望對初學者有用。注意這里只是拋磚引玉,切莫認為參考這就可以完成商用IP設計。 與 RoCE v2 發送模塊類似,接收模塊由五個接收單元和一
    發表于 01-30 10:08

    RDMA設計29:RoCE v2 發送及接收模塊設計2

    本博文主要交流設計思路,在本博客已給出相關博文約100,希望對初學者有用。注意這里只是拋磚引玉,切莫認為參考這就可以完成商用IP設計。 (1)RoCE v2 發送模塊 RoCE v2 發送模塊
    發表于 01-26 16:47

    RDMA設計28:RoCE v2 發送及接收模塊設計

    本博文主要交流設計思路,在本博客已給出相關博文約100,希望對初學者有用。注意這里只是拋磚引玉,切莫認為參考這就可以完成商用IP設計。 RoCE v2 發送及接收模塊負責將用戶指令組裝為 RoCE
    發表于 01-25 10:45

    是德科技34461A與普源數字萬用表DM3068與對比分析

    代表性的6?位數字萬用表,者均具備高精度、多功能和良好的穩定性,但在性能、功能、用戶體驗及價格等方面存在顯著差異。本文將從多個維度對這兩款產品進行對比分析,以幫助用戶根據實際需求做出
    的頭像 發表于 01-15 16:29 ?228次閱讀
    是德科技34461A與普源數字萬用表DM3068與<b class='flag-5'>對比分析</b>

    RDMA設計19:RoCE v2 發送及接收模塊設計

    本博文主要交流設計思路,在本博客已給出相關博文約100,希望對初學者有用。注意這里只是拋磚引玉,切莫認為參考這就可以完成商用IP設計。 RoCE v2 發送及接收模塊負責將用戶指令組裝
    發表于 01-06 08:08

    無源探頭與高壓探頭技術對比分析

    本文對比分析了無源探頭與高壓探頭的技術原理、性能參數及應用場景,為選擇合適探頭提供參考。
    的頭像 發表于 11-30 15:47 ?749次閱讀

    RDMA設計5:RoCE V2 IP架構

    上面分析,基于RoCE v2 高速數據傳輸IP 的高速傳輸應用整體架構如圖 1 所示。 圖1 基于RoCE V2 IP應用的系統整體架構圖 它通過 QSFP28 接口連接上位機進行
    發表于 11-25 10:34

    泰克示波器MDO3000與MDO4000C采樣率對比分析

    一、引言 1.1 研究背景與意義 在電子測量領域,示波器采樣率至關重要,直接影響波形準確性與完整性。對比分析泰克MDO3000與MDO4000C的采樣率,能為用戶選擇提供關鍵參考。 1.2 泰克
    的頭像 發表于 08-27 17:39 ?949次閱讀
    泰克示波器MDO3000與MDO4000C采樣率<b class='flag-5'>對比分析</b>

    RDMA簡介3之四種子協議對比

    協議,與IB協議具有相同的傳輸層,僅在網絡層和鏈路層與IB協議存在差異。RoCE協議有v1和v2版本,其中RoCE v1只能部署于層網絡,
    發表于 06-04 16:05

    國內外電機結構 工藝對比分析

    純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:國內外電機結構 工藝對比分析.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發表于 05-29 14:06

    主流汽車電子SoC芯片對比分析

    主流汽車電子SoC芯片對比分析 隨著汽車智能化、電動化趨勢加速,系統級芯片(SoC)已成為汽車電子核心硬件。本文從技術參數、市場定位、應用場景及國產化進程等維度,對主流汽車電子SoC芯片進行對比分析
    的頭像 發表于 05-23 15:33 ?6335次閱讀