DCQCN ( Data Center Quantized Congestion Notification),數據中心量化擁塞通知。它是一種專門為數據中心網絡設計的端到端擁塞控制協議。其核心目的是在使用RDMA(RoCEv2) 的網絡中,高效地管理網絡擁塞,從而保證高吞吐、低延遲和零丟包(或極低丟包)。
簡單來說,DCQCN就是RDMA在以太網(RoCE)環境中的“交通警察”,它確保高速數據流不會造成網絡堵塞。
本文參閱文獻:Congestion Control for Large-Scale RDMA Deployments.pdf
為什么需要DCQCN?
現代數據中心應用需要高吞吐量和超低延遲網絡,具有低 CPU 開銷。標準 TCP/IP 堆棧不能滿足這些要求,但RDMA可以。在 IP 路由的數據中心網絡上,RDMA 使用 RoCEv2 協議部署,該協議依賴于基于優先級的流量控制 (PFC) 可實現無中斷網絡。

但是,由于隊頭阻塞和帶寬分配不均等問題,PFC 會導致應用程序性能不佳。為了緩解這些問題,DCQCN誕生了。
DCQCN是如何工作的?

DCQCN 是一種基于速率的擁塞控制協議,它模仿了著名的QCN(Quantized Congestion Notification),但做了適應數據中心的修改,更適合RDMA的高性能、低開銷特性。
- 發送方:速率調節的起點(運行RDMA應用的服務器)
- 交換機:擁塞的檢測和通知者(支持ECN的交換機)
- 接收方:通知的轉發者(運行RDMA應用的服務器)
整個過程可以分為以下四個步驟:
步驟 1: 擁塞檢測與標記(在交換機發生)
交換機持續監控其出口端口的隊列深度。當某個端口的隊列長度超過一個預設的閾值(Kmin)時,交換機判斷該端口發生了擁塞。對于經過該擁塞端口的數據包,交換機會以一定概率將其IP頭中的ECN(顯式擁塞通知) 字段標記為“擁塞遭遇”(CE)。這個概率隨著隊列變長而增加。
步驟 2: 擁塞通知(接收方 -> 發送方)
被標記了ECN的數據包會繼續被發送到接收方服務器。接收方的網卡識別到這個ECN標記后,不會像傳統TCP一樣等待ACK包,而是立即生成并發送一個名為“CNP”(Congestion Notification Packet)的特殊控制包 directly返回給發送方。
CNP包非常小(約64字節),擁有最高優先級,以確保它能最快速度地返回給發送方,幾乎無延遲地報告擁塞。
步驟 3: 速率調節(在發送方發生)
發送方收到CNP包后,就知道其發出的數據流在某處造成了網絡擁塞。發送方會根據內置的算法立即降低其數據發送速率(Rate)。這個降速過程是多級的:
- 快速恢復:首先進行一次大幅度的降速(乘以一個小于1的因子,如 0.5),以快速緩解網絡壓力。
- 主動減少:之后進入一個階段,持續地、較小幅度地降低速率。
- 主動增加:當一段時間內沒有收到新的CNP包時,發送方會認為擁塞已經解除,開始緩慢地、逐步地增加發送速率(加法增加),以重新探知可用帶寬。
這個“降-增”的循環過程使得DCQCN能夠動態、平滑地適應網絡狀態,既不會過于激進導致帶寬浪費,也不會過于保守導致延遲升高。
DCQCN的應用與部署
DCQCN由Mellanox(現NVIDIA的一部分)在其網卡中實現,并廣泛應用于微軟等大型數據中心,以支持其云存儲、分布式緩存等需要高吞吐量和低延遲的服務。由于其重要性和影響力,DCQCN在2025年獲得了SIGCOMM“經典之作獎”。
- AI與大模型訓練:在數據并行、流水線并行和張量并行等分布式訓練模式中,節點間需要頻繁同步海量參數(通常達百GB級別)。DCQCN能有效減少網絡擁塞,避免因PFC“剎停”或丟包導致的計算長尾延遲,保障訓練任務高效運行。
- 高性能計算(HPC)??:用于需要極高網絡帶寬和極低延遲的科學計算、模擬等場景,DCQCN幫助RDMA實現接近線速的傳輸。
- 云存儲與分布式系統:如微軟的云存儲服務,DCQCN保障了后端存儲節點間大數據塊傳輸的效率和穩定性,同時極大降低了CPU開銷。
要想實現DCQCN,你的數據中心網絡需要滿足一些特定條件,并理解其三個核心組件(對應下圖)的職責:
| 組件 | 角色與職責 | 硬件要求 |
| ?交換機 (CP)?? | 監控出口隊列長度,超過閾值時根據RED算法對數據包進行ECN標記。 | 支持ECN和RED功能的標準數據中心交換機。 |
| ?接收端網卡 (NP)?? | 檢測帶有ECN標記的數據包,生成CNP擁塞通知包并返回給發送端。 | 支持RoCEv2的智能網卡 |
| ?發送端網卡 (RP)?? | 根據收到的CNP包降低發送速率;在未收到CNP時逐步提升速率。 | 支持RoCEv2的智能網卡 |
智算中心的硬件核心在于為 RoCEv2提供穩定、高性能的無損網絡環境。這不僅需要網卡支持,更需要交換機的深度配合。CX-N系列數據中心交換機通過其超低時延、無損網絡技術、對大容量緩存的優化、高級遙測功能以及對自動化運維的支持,為DCQCN協議在AI計算、高性能計算等場景中的高效、穩定運行提供了堅實的硬件基礎。
-
網絡
+關注
關注
14文章
8264瀏覽量
94701 -
PFC
+關注
關注
49文章
1061瀏覽量
111208 -
數據中心
+關注
關注
18文章
5647瀏覽量
75008 -
擁塞控制
+關注
關注
0文章
15瀏覽量
8642
發布評論請先 登錄
一文詳解DCQCN擁塞控制算法
適用于數據中心和AI時代的800G網絡
RDMA簡介7之可靠傳輸
PCIe協議分析儀在數據中心中有何作用?
易天重點解析監控系統在數據中心機房的重要性
數據中心中網絡擁塞的危害及其疏散方法的介紹
基于數據中心網絡拓撲感知型擁塞控制算法
淺談:RDMA能給數據中心帶來什么?
HPC和數據中心融合網絡面臨的技術挑戰
解析DCQCN:RDMA在數據中心網絡的關鍵擁塞控制協議
評論