什么是IPT(In-band Path Telemetry)?
IPT是 In-band Path Telemetry 的縮寫,中文譯為 “帶內路徑遙測”。IPT是INT技術的標準方案之一,也是實現網絡數據平面可觀測性的一種核心技術。要理解“帶內”,首先要對比“帶外”;
- 帶外遙測:網絡設備(如交換機、路由器)會定期、主動地收集自身的性能數據(如端口計數、CPU負載),并通過獨立的管理通道(如SNMP、gRPC)上報給控制平面或網管系統。數據流和業務報文是分離的。
- 帶內遙測:業務報文本身在轉發過程中,會“攜帶”其流經路徑的網絡狀態信息。這些信息被直接寫入數據包內部,并隨數據包一同被傳送到目的地或指定的收集點。
所以,IPT的核心思想就是,將網絡測量任務從網管設備(帶外)下放到數據報文(帶內)本身。讓數據包在穿越網絡時,像“偵探”一樣,沿途自動收集每一跳設備的實時狀態信息,并將這些證據(遙測數據)封裝在自己體內,最終送達分析端。
IPT的技術實現
在現有報文格式(如以太網幀、IPv4/IPv6包)中插入一個INT頭部和一系列INT指令,預留出空間來存放待收集的數據。需要支持INT的設備(稱為“INT節點”或“Telemetry Node”)在轉發該報文時,會識別INT指令,并根據指令要求,將本地的特定信息(如交換機ID、入口/出口端口、時間戳、隊列深度、鏈路利用率等)寫入報文預留的INT數據區。所有信息都在數據內部添加和傳輸,不需要再為遙測單獨建立通道或額外發送探測報文。
IPT 報文格式
IPT報文由多層頭部構成,包含L2/L3封裝、GRE頭部、IPT Shim頭部、探針標記及各節點統計信息等字段。
IPT工作流程
IPT通過入口節點生成探測包、傳輸節點收集信息、出口節點封裝報文發送的整理流程圖,實現端到端路徑信息采集。探測數據包為原始數據包的克隆(payload截斷),沿與原始包相同路徑傳輸,并在各個節點插入統計信息,最終發送至用戶配置的收集器。

IPT能做什么呢?
IPT提供了一種高實時性、與業務流完全同步的網絡路徑狀態的洞察能力。
精準的故障與性能問題定位
傳統定位故障問題的方法:網絡管理員收到告警(如“服務器A到B延遲高”),需要逐跳登錄設備、查看計數器、抓包分析,耗時長,難以定位到具體哪一跳、哪個端口、哪個隊列出了問題。
IPT可以直接從出問題的數據流本身的INT報告中,就能看到整條路徑上每一跳的詳細信息。舉個例子:通過報告可以發現“在交換機3的出口端口Ethernet1/1/1上,隊列2的排隊延遲突增了50ms”,這樣就實現秒級甚至亞秒級的根因定位。
網絡性能可視化與基線建立
持續收集關鍵業務流的路徑數據,可以繪制出網絡性能的精細圖譜,實現端到端性能的可視化,包括逐跳的延遲、抖動、丟包、擁塞點等。基于這些真實數據建立性能基線,任何偏離基線的異常都可以被快速檢測出來,輔助運維決策。
自動化與智能運維
為SDN控制器、網絡分析器或AIOps平臺提供高質量、實時、關聯性極強的輸入數據,可用于訓練AI模型。使得網絡能夠實現基于真實流量狀態的動態優化,如自動重路由(將受擁塞影響的流量切換到其他路徑)、主動緩存調整、容量規劃等。
服務等級協議保障與驗證
對于云服務商或企業,可以針對VIP客戶或關鍵應用(如視頻會議、金融交易)的流量啟用IPT。直接驗證從源頭到目的地的SLA指標(如端到端延遲、丟包率)是否達標,并提供無法抵賴的、逐跳的證據。
典型應用場景 - 端到端路徑時延監控
在某超千卡GPU集群的大規模訓練場景中,All-Reduce等集合通信操作對網絡時延極度敏感,其完成速度取決于最慢的路徑。傳統監控手段難以精準定位網絡鏈路中的隱患。IPT技術通過實現納秒級精度的端到端路徑時延透視,為解決此問題提供了根本性方案。

訓練過程中,梯度數據需經多臺Leaf/Spine交換機轉發。IPT通過探測數據包采集各節點轉發時延,結合入口到出口的總時延,定位高延遲節點(如某Spine交換機轉發時延異常升高),輔助調整流量轉發路徑,避免因單節點延遲導致整體訓練效率下降。
通過IPT實現的端到端路徑時延監控,將網絡從“黑盒”變為“白盒”,把訓練效率的瓶頸定位從“猜測GPU或軟件問題”精確到“證實并定位網絡硬件或微突發流量問題”,從而將小時級甚至天級的故障排查過程縮短至分鐘級,有效保障了萬卡集群的算力高效、穩定輸出。
-
監控
+關注
關注
6文章
2380瀏覽量
59419 -
IPT
+關注
關注
0文章
3瀏覽量
8803 -
Int
+關注
關注
0文章
27瀏覽量
16460
發布評論請先 登錄
INT技術眾多,為何IPT能成為路徑性能監控的首選方案?
評論