国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

解析DCQCN:RDMA在數據中心網絡的關鍵擁塞控制協議

星融元Asterfusion ? 2025-09-15 11:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DCQCN ( Data Center Quantized Congestion Notification),數據中心量化擁塞通知。它是一種專門為數據中心網絡設計的端到端擁塞控制協議。其核心目的是在使用RDMA(RoCEv2) 的網絡中,高效地管理網絡擁塞,從而保證高吞吐、低延遲和零丟包(或極低丟包)。

簡單來說,DCQCN就是RDMA在以太網(RoCE)環境中的“交通警察”,它確保高速數據流不會造成網絡堵塞。

本文參閱文獻:Congestion Control for Large-Scale RDMA Deployments.pdf

為什么需要DCQCN?

現代數據中心應用需要高吞吐量和超低延遲網絡,具有低 CPU 開銷。標準 TCP/IP 堆棧不能滿足這些要求,但RDMA可以。在 IP 路由的數據中心網絡上,RDMA 使用 RoCEv2 協議部署,該協議依賴于基于優先級的流量控制 (PFC) 可實現無中斷網絡。

wKgZO2jHiweAYE4iAANw32ksQOI391.png

但是,由于隊頭阻塞和帶寬分配不均等問題,PFC 會導致應用程序性能不佳。為了緩解這些問題,DCQCN誕生了。

DCQCN是如何工作的?

wKgZPGjHixuAE0enAAA87D_CoGo407.png

DCQCN 是一種基于速率的擁塞控制協議,它模仿了著名的QCN(Quantized Congestion Notification),但做了適應數據中心的修改,更適合RDMA的高性能、低開銷特性。

  • 發送方:速率調節的起點(運行RDMA應用的服務器)
  • 交換機:擁塞的檢測和通知者(支持ECN的交換機)
  • 接收方:通知的轉發者(運行RDMA應用的服務器)

整個過程可以分為以下四個步驟:

步驟 1: 擁塞檢測與標記(在交換機發生)

交換機持續監控其出口端口的隊列深度。當某個端口的隊列長度超過一個預設的閾值(Kmin)時,交換機判斷該端口發生了擁塞。對于經過該擁塞端口的數據包,交換機會以一定概率將其IP頭中的ECN(顯式擁塞通知) 字段標記為“擁塞遭遇”(CE)。這個概率隨著隊列變長而增加。

步驟 2: 擁塞通知(接收方 -> 發送方)

被標記了ECN的數據包會繼續被發送到接收方服務器。接收方的網卡識別到這個ECN標記后,不會像傳統TCP一樣等待ACK包,而是立即生成并發送一個名為“CNP”(Congestion Notification Packet)的特殊控制包 directly返回給發送方。

CNP包非常小(約64字節),擁有最高優先級,以確保它能最快速度地返回給發送方,幾乎無延遲地報告擁塞。

步驟 3: 速率調節(在發送方發生)

發送方收到CNP包后,就知道其發出的數據流在某處造成了網絡擁塞。發送方會根據內置的算法立即降低其數據發送速率(Rate)。這個降速過程是多級的:

  • 快速恢復:首先進行一次大幅度的降速(乘以一個小于1的因子,如 0.5),以快速緩解網絡壓力。
  • 主動減少:之后進入一個階段,持續地、較小幅度地降低速率。
  • 主動增加:當一段時間內沒有收到新的CNP包時,發送方會認為擁塞已經解除,開始緩慢地、逐步地增加發送速率(加法增加),以重新探知可用帶寬。

這個“降-增”的循環過程使得DCQCN能夠動態、平滑地適應網絡狀態,既不會過于激進導致帶寬浪費,也不會過于保守導致延遲升高。

DCQCN的應用與部署

DCQCN由Mellanox(現NVIDIA的一部分)在其網卡中實現,并廣泛應用于微軟等大型數據中心,以支持其云存儲、分布式緩存等需要高吞吐量和低延遲的服務。由于其重要性和影響力,DCQCN在2025年獲得了SIGCOMM“經典之作獎”。

  • AI與大模型訓練:在數據并行、流水線并行和張量并行等分布式訓練模式中,節點間需要頻繁同步海量參數(通常達百GB級別)。DCQCN能有效減少網絡擁塞,避免因PFC“剎停”或丟包導致的計算長尾延遲,保障訓練任務高效運行。
  • 高性能計算(HPC)??:用于需要極高網絡帶寬和極低延遲的科學計算、模擬等場景,DCQCN幫助RDMA實現接近線速的傳輸。
  • 云存儲與分布式系統:如微軟的云存儲服務,DCQCN保障了后端存儲節點間大數據塊傳輸的效率和穩定性,同時極大降低了CPU開銷。

要想實現DCQCN,你的數據中心網絡需要滿足一些特定條件,并理解其三個核心組件(對應下圖)的職責:

組件角色與職責硬件要求
?交換機 (CP)??監控出口隊列長度,超過閾值時根據RED算法對數據包進行ECN標記。支持ECN和RED功能的標準數據中心交換機。
?接收端網卡 (NP)??檢測帶有ECN標記的數據包,生成CNP擁塞通知包并返回給發送端。支持RoCEv2的智能網卡
?發送端網卡 (RP)??根據收到的CNP包降低發送速率;在未收到CNP時逐步提升速率。支持RoCEv2的智能網卡

智算中心的硬件核心在于為 RoCEv2提供穩定、高性能的無損網絡環境。這不僅需要網卡支持,更需要交換機的深度配合。CX-N系列數據中心交換機通過其超低時延、無損網絡技術、對大容量緩存的優化、高級遙測功能以及對自動化運維的支持,為DCQCN協議在AI計算、高性能計算等場景中的高效、穩定運行提供了堅實的硬件基礎。

wKgZO2jHi6uAW31NAAPH9niMZ4o418.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網絡
    +關注

    關注

    14

    文章

    8264

    瀏覽量

    94701
  • PFC
    PFC
    +關注

    關注

    49

    文章

    1061

    瀏覽量

    111208
  • 數據中心
    +關注

    關注

    18

    文章

    5647

    瀏覽量

    75008
  • 擁塞控制
    +關注

    關注

    0

    文章

    15

    瀏覽量

    8642
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一文詳解DCQCN擁塞控制算法

    DCQCN 是一種基于速率的端到端擁塞協議,它建立在 QCN 和 DCTCP 之上。DCQCN 的大部分功能是現在網卡上(而不是交換機上,或者操作系統上)。
    發表于 01-23 10:48 ?1.3w次閱讀
    一文詳解<b class='flag-5'>DCQCN</b><b class='flag-5'>擁塞</b><b class='flag-5'>控制</b>算法

    適用于數據中心和AI時代的800G網絡

    隨著人工智能(AI)技術的迅猛發展,數據中心面臨著前所未有的計算和網絡壓力。從大語言模型(LLM)訓練到生成式AI應用,海量數據處理需求推動了網絡帶寬的快速增長。在此背景下,800G
    發表于 03-25 17:35

    RDMA簡介7之可靠傳輸

    。這樣的丟包重傳機制將導致在丟包率較高的網絡環境下,會反復重傳大量數據包,性能會隨著丟包率的提升急速下滑。這也就是為什么要求RoCE v2工作在二三層無損網絡下。 (2)流量控制
    發表于 06-13 10:01

    PCIe協議分析儀在數據中心中有何作用?

    PCIe協議分析儀在數據中心中扮演著至關重要的角色,它通過深度解析PCIe總線的物理層、鏈路層、事務層及應用層協議,幫助運維人員、硬件工程師和系統架構師優化性能、診斷故障、驗證設計合規
    發表于 07-29 15:02

    易天重點解析監控系統在數據中心機房的重要性

    ,通過在數據中心機房內多個區域部署溫濕度傳感器,建立起溫濕度的監控網絡,就可以及時地發現局部區域過溫過濕的情況,在一些空氣污染較為嚴重的地方,還可以部署空氣清潔度監測的設備,數據中心機房設備運行在污染
    發表于 10-09 15:00

    數據中心中網絡擁塞的危害及其疏散方法的介紹

    網絡狀態,此時用戶對網絡資源的需求超過了固有的容量。近些年隨著云計算、大數據、搜索技術本身要消耗大量的網絡帶寬,所以在數據中心
    發表于 10-17 12:33 ?6次下載

    基于數據中心網絡拓撲感知型擁塞控制算法

    針對數據中心網絡(DCN)的鏈路擁塞問題,提出了一種拓撲感知型擁塞控制算法(TACC)。首先,根據廣義超立方體拓撲多維正交和單維全連接的結構
    發表于 12-12 13:55 ?0次下載

    基于流調度代價的數據中心網絡擁塞控制路由算法

    針對傳統數據中心網絡極易發生擁塞的問題,提出了在軟件定義網絡(SDN)的架構下設計基于流調度代價的擁塞
    發表于 12-14 14:35 ?0次下載

    淺談:RDMA能給數據中心帶來什么?

    在數據中心內,70%的流量為東西向流量(服務器之間的流量),這些流量一般為數據中心進行高性能分布式并行計算時的過程數據流,通過TCP/IP網絡傳輸。如果服務器之間的TCP/IP 傳輸速
    的頭像 發表于 11-29 16:28 ?1908次閱讀

    數據中心以太網和RDMA:超大規模環境下的問題

    我們觀察到新興的人工智能、高性能計算和存儲工作負載對大規模數據中心網絡提出了新的挑戰。基于融合以太網的RDMA協議(RoCE,RDMA ov
    的頭像 發表于 07-14 16:41 ?6488次閱讀
    <b class='flag-5'>數據中心</b>以太網和<b class='flag-5'>RDMA</b>:超大規模環境下的問題

    數字孿生在數據中心的應用場景

    數字孿生技術如何應用到數據中心的運營發展,又在數據中心的設計與發展階段起到怎樣的作用呢?本文將在數據中心的設計階段與運維階段應用數字孿生技術進行解析
    的頭像 發表于 08-28 15:03 ?3013次閱讀
    數字孿生<b class='flag-5'>在數據中心</b>的應用場景

    HPC和數據中心融合網絡面臨的技術挑戰

    隨著大型DC采用具有更高帶寬需求的高性能加速器,數據中心網絡通過支持遠程直接內存訪問(RDMA)、RDMA融合以太網(RDMA over c
    發表于 09-15 09:56 ?1736次閱讀
    HPC和<b class='flag-5'>數據中心</b>融合<b class='flag-5'>網絡</b>面臨的技術挑戰

    集中電源控制在數據中心的應用

    集中電源控制在數據中心的應用非常廣泛。數據中心通常需要大量的電源來支持服務器、網絡設備和存儲設備等關鍵基礎設施的運行。集中電源
    的頭像 發表于 01-30 15:24 ?1404次閱讀
    集中電源<b class='flag-5'>控制</b>器<b class='flag-5'>在數據中心</b>的應用

    多業務光端機在數據中心的應用:提升網絡效率的關鍵

    隨著云計算、大數據等技術的迅猛發展,數據中心已成為現代社會不可或缺的基礎設施。數據中心內部網絡的高效、穩定運行對于整個數據中心的性能至關重要。多業務光端機作為
    的頭像 發表于 02-23 14:09 ?1372次閱讀

    諾基亞擴展與微軟Azure的數據中心網絡供應協議

    的進一步鞏固。 作為協議擴展的重要組成部分,諾基亞將向微軟Azure提供其最新的7250 IXR-10e平臺。該平臺以其卓越的性能、靈活性和可擴展性,在數據中心網絡中發揮著關鍵作用。通
    的頭像 發表于 11-22 13:53 ?1041次閱讀