故障現象
某地ZXR10 5960X MC-LAG組網,軟件版本V6.00.00.70B18,現場升級版本,先升級MC-LAG主設備。主設備重啟時,MC-LAG備設備業務中斷大約3分鐘。
MC-LAG雙機二層組網,smartgroup127作為peerlink端口,smartgroup128作為keepalive端口。現場網絡配置如下:

故障分析
Keepalive 聯動檢測配置缺失,聯動檢測未生效導致備設備退避。
故障處理
1. 對業務中斷到業務恢復過程告警進行分析。
MC-LAG主設備升級執行reload重啟后,備設備11:25上報smartgroup127(peerlink)和smartgroup128(keepalive)物理端口及MC-LAG成員端口(業務)口物理down告警,同時1144設備上報了退避告警。
1137備設備退避狀態發生變化,變為master主設備。
1140開始MC-LAG備設備成員口逐步up(注:主設備還未啟動完成,peerlink和keepalive物理端口還未起來),此時業務恢復。
物理端口down 告警:

MC-LAG 退避告警:

退避狀態變化,備設備變為master 主設備:

MC-LAG 成員端口up 告警:

2. 業務中斷分析:
從告警初步判斷主設備重啟導致備設備退避,MC-LAG成員端口down,業務中斷3分鐘,然后MC-LAG成員端口up,業務恢復。主設備升級后出現以上現象存在疑點:
MC-LAG 雙機,重啟一臺設備理論上不會影響另一臺設備業務,現場卻出現備設備業務中斷,檢查配置發現LACP全局下配置了keepalive聯動檢測,但SAMGR下并未做track 關聯配置,相當于keepalive和物理端口聯動檢測未生效。當主設備重啟時peerlink端口down,keepalive雖然物理端口down但keepalive協議檢測未關聯,認為還是up的(keepalive報文發送周期5 s,超時時間180 s),因此MC-LAG備設備才會出現退避及物理端口down的現象。
3. 補充增加SAMGR配置,驗證再次重啟主設備則不會再出現備設備退避及業務中斷影響。

故障總結
1. MC-LAG升級前一定要檢查主備設備配置,參考開局指導規范實施。
2. MC-LAG升級理論上先升級主或先升級備均不會影響另外一臺,但實施時建議升級備設備,備設備升級完成后再調整MC-LAG優先級。主備角色重新選舉后再次升級備設備,升級完成后調整優先級恢復配置,要求始終保持每次升級均為備設備,這樣會更安全。
-
軟件
+關注
關注
69文章
5332瀏覽量
91577 -
端口
+關注
關注
4文章
1104瀏覽量
33963
原文標題:MC-LAG主設備升級備設備業務中斷的案例分析
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
一文看懂WiFi模塊主設備和從設備的區別!
6748用戶SPI主設備往從設備發clock信號
如何查看注冊的主設備號
設備OTA空中升級原理是什么
esp32藍牙作為主設備時可以同時連接多少個從設備?
嵌入式應用中的USB主設備功能
嵌入式系統應用中的USB主設備功能分析
WiFi模塊主設備和從設備的區別,一文看懂!
解讀WiFi模塊的主設備和從設備區別
主設備號--驅動模塊與設備節點聯系的紐帶
JUNIPER MAC LAG交換機技術的資料概述
主設備WiFi模塊,從設備WiFi模塊功能介紹
交換機MC-LAG場景下單臂BFD無法UP問題
VRRP 只能主備閑置?如何配合 MC-LAG 實現網關的“雙活轉發”?
MC-LAG主設備升級備設備業務中斷的案例分析
評論