伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TECS資源池上報BFD會話DOWN和網絡流量異常告警的問題處理

中興文檔 ? 來源:中興文檔 ? 2023-06-07 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

某資源池TECS上報BFD會話DOWN告警和網絡流量異常告警,持續時間1秒至6分鐘不等,如下圖所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同時,業務側反饋,該資源池ISBG業務網元產生指標下降等異常情況,但已快速恢復。

物理節點上的虛擬機都通過業務面網卡和節點外部通信。當流量異常時,業務網卡上會出現很多丟棄包。

系統周期性采樣網卡所有收發包總數和丟棄包總數,當丟棄包占比數連續多次超過門限時,則上報告警;當連續幾個采樣周期的丟棄包占比數低于門限,則恢復告警。

虛擬網絡上出現較重負荷,造成報文丟棄率超過給定閾值。短暫的指標下降異常情況可能和資源相關,例如CPU、內存、網絡資源不足,或者硬盤的IO讀寫過低導致延遲。

問題分析過程如下:

1.觀察到異常情況后,對告警內容展開分析。執行dvs show-dpifstats命令,找到對應端口,查看overrun和drop統計項是否在增加。

2.觀察到計算服務器NFV-D-XXX-SRV-15業務bond子接口均上報了網絡流量異常告警,分析可能是端口丟包。

3.登錄服務器查看DVS日志,端口丟包量在告警時刻出現上漲,如下圖所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登錄云平臺查看NFV-D-XXX-SRV-15承載業務,該主機承載虛機四臺,其中包含ISBG的XX-isbg-OMPIPI_2_L虛機。分析可能為DVS接收丟包影響到虛機業務。

5.分析SAR日志,確認DVS的綁定核在故障期間出現被占用的情況,時間點與網卡丟包基本一致,認定為DVS核占用導致的DVS物理網卡丟包,如下圖所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,該時間(+8)在日志中大量出現ECC內存錯誤,內存定位DIMM11,如下圖所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC錯包出現的時間點與DVS網卡丟包時間點(DVS轉發核被占用的時間點)基本重合,認定內存ECC錯誤與DVS的丟包強相關。

8.根據日志顯示報錯信息,ECC內存錯誤觸發的內存槽位為DIMM11。

1.登錄管理頁面,選擇“云平臺管理-計算-實例”,選中該臺主機上虛擬機,完成主機上虛擬機的熱遷移,如下圖所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成遷移后,選擇“云平臺管理-計算-主機”,選中這臺主機,設置維護模式,如下圖所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下電服務器完成內存更換,完成后上電,取消“設置維護模式”。

4.遷移回虛擬機,測試正常。

5.內存ECC錯誤為此次異常故障根因。內存ECC錯誤影響DVS轉發分析:

l在內存ECC錯誤故障期間,現有的BIOS配置會為每一個內存ECC錯誤產生一個SMI中斷。

如果產生ECC風暴,那么影響CPU處理性能。

SMI中斷在內核感知為NMI,不受內核控制,從硬件描述看內核是無法屏蔽此類中斷的。內存ECC默認不告警。

SMI中斷導致CPU進入SMM模式,該模式對于OS是透明的。

因此SMI中斷是硬件和固件(BIOS)共同處理的,其對于CPU處理流程的打斷,對OS而言是不可感知的,不會出現在OS的統計項里面。

只有當BIOS處理SMI后,并以SCI中斷通知OS時,OS才能感知到SCI中斷。但是BIOS是否觸發SCI中斷也不是OS所能控制的。

總之,SMI中斷對于DVS處理核的影響是硬件和固件的行為。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SAR
    SAR
    +關注

    關注

    3

    文章

    447

    瀏覽量

    48010
  • BIOS
    +關注

    關注

    6

    文章

    474

    瀏覽量

    48550
  • ECC
    ECC
    +關注

    關注

    0

    文章

    104

    瀏覽量

    21724
  • 虛擬機
    +關注

    關注

    1

    文章

    973

    瀏覽量

    30592
  • SCI
    SCI
    +關注

    關注

    1

    文章

    61

    瀏覽量

    20906

原文標題:TECS資源池上報BFD會話DOWN和網絡流量異常告警的問題處理

文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    破解RDMA網絡“黑盒”:輕量化會話追蹤工具

    在RDMA網絡運維面臨“黑盒”挑戰的背景下,星融元推出的RST工具通過無侵入捕獲CM報文,實現RDMA會話的可視化追蹤與全網路徑還原。該工具基于RFT與RPT雙模塊,支持從設備流表到全局拓撲的多維觀測,大幅降低運維定位成本,推動高性能
    的頭像 發表于 02-13 14:30 ?445次閱讀
    破解RDMA<b class='flag-5'>網絡</b>“黑盒”:輕量化<b class='flag-5'>會話</b>追蹤工具

    如何控制告警聲音,或者實現長鳴告警

    如何控制告警聲音,或者實現長鳴告警
    發表于 01-20 17:10

    使用setjmp及longjmp函數處理異常

    ,例如在發生錯誤或異常時,直接跳轉到錯誤處理資源釋放的代碼,而不需要逐層返回。setjmp和longjmp函數定義在setjmp.h頭文件中,其語法為: int setjmp(jmp_buf
    發表于 12-11 08:00

    電能質量在線監測裝置的多級告警閾值功能是如何實現的?

    電能質量在線監測裝置的多級告警閾值功能通過 “硬件采集 - 軟件計算 - 閾值比對 - 智能觸發 - 分級響應” 的全鏈路閉環實現,核心是為不同電能質量指標設置差異化閾值與響應策略,適配異常嚴重程度
    的頭像 發表于 12-10 14:32 ?553次閱讀
    電能質量在線監測裝置的多級<b class='flag-5'>告警</b>閾值功能是如何實現的?

    線路保護光纖通道異常處理方法

    通道異常的 常見原因、處理步驟及預防措施 ,幫助運維人員快速定位問題,提升故障處理效率。 廣州郵科光纖線路保護系統 一、光纖通道異常的常見表現 當線路保護光纖通道出現
    的頭像 發表于 11-17 10:01 ?1312次閱讀
    線路保護光纖通道<b class='flag-5'>異常</b><b class='flag-5'>處理</b>方法

    構建高可靠網絡:硬件BFD的關鍵作用

    BFD Acceleration(BFD加速)指的是一系列通過硬件卸載或內核優化技術,將BFD報文的處理從設備的中央處理器(CPU)轉移到專
    的頭像 發表于 11-06 11:09 ?1196次閱讀
    構建高可靠<b class='flag-5'>網絡</b>:硬件<b class='flag-5'>BFD</b>的關鍵作用

    BFD 故障檢測機制詳解

    BFD (Bidirectional Forwarding Detection)的是雙向轉發檢測。它是一個用于快速檢測兩臺網絡設備之間通信故障的輕量級、低開銷的協議。可以把它想象成一個在網絡線路上運行的、頻率極高的“心跳檢測”或
    的頭像 發表于 11-03 15:34 ?1198次閱讀
    <b class='flag-5'>BFD</b> 故障檢測機制詳解

    交換機光模塊收發光超閾值無告警問題的處理方法

    某互聯網電視CDN網絡使用ZXR10 5960-56QU-HC交換機作為承載設備,通過光口與城域網設備以及CDN服務器對接,承載互聯網電視視頻流量。日常運行中發現設備沒有上報光模塊收發光超閾值
    的頭像 發表于 10-16 09:34 ?977次閱讀
    交換機光模塊收發光超閾值無<b class='flag-5'>告警</b>問題的<b class='flag-5'>處理</b>方法

    看不見的安全防線:信而泰儀表如何驗證零信任有效性

    刷新后SDP認證失敗無法新建對應會話網絡準入驗證不通過: ? 儀表統計顯示所有業務會話均建立失敗 場景 3: IAM通知DUT對指定令牌進行老化,流量觸發DUT重新生成對應緩存表
    發表于 09-09 15:33

    DPI技術賦能:開啟智能流量分析新紀元

    隨著企業數字化轉型的深入,網絡流量復雜度與安全威脅呈現爆炸式增長。傳統防火墻與入侵檢測系統面對加密流量和高級威脅顯得力不從心,關鍵業務響應延遲激增,未知惡意流量滲透導致數據泄露風險高,運維團隊在安全
    的頭像 發表于 07-28 11:05 ?1571次閱讀
    DPI技術賦能:開啟智能<b class='flag-5'>流量</b>分析新紀元

    協議分析儀能監測哪些異常行為?

    協議分析儀通過深度解析網絡通信中的協議字段、時序和狀態,能夠精準識別多種異常行為,涵蓋從配置錯誤到惡意攻擊的廣泛場景。以下是其可監測的核心異常行為類型及具體實例:一、協議實現違規:違反標準或規范
    發表于 07-22 14:20

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    ,還是工業協議時序混亂,均可完整還原端到端業務會話鏈條,為智能分析提供堅實基礎。2.AI根因定位:推理引擎驅動秒級精準診斷l 知識圖譜驅動:將網絡拓撲、流量統計、歷史趨勢、會話日志、
    發表于 07-16 15:29

    C#上位機與運動控制卡網絡通訊的周期上報

    使用C#上位機編程實現運動控制卡網絡通訊的周期上報功能
    的頭像 發表于 06-26 13:59 ?899次閱讀
    C#上位機與運動控制卡<b class='flag-5'>網絡</b>通訊的周期<b class='flag-5'>上報</b>

    TECS OpenStack資源池虛擬機網絡二層地址無法互通的問題處理

    某運營商TECS OpenStack使用主機overlay SDN方案組網,運維人員在創建虛擬機測試虛擬機網絡狀態時發現問題:在其中一臺主機上創建兩臺同網段虛擬機,虛擬機之間二層地址無法Ping通,但是可以Ping通網關地址,如圖1所示。
    的頭像 發表于 06-12 09:28 ?941次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛擬機<b class='flag-5'>網絡</b>二層地址無法互通的問題<b class='flag-5'>處理</b>

    曙光網絡發布網絡流量回溯分析平臺SUNA

    AI時代,日益復雜的網絡環境正給運維帶來嚴峻挑戰。業務系統卡頓、異常流量難溯源、故障定位如大海撈針等問題頻發,傳統運維手段已難應對海量數據洪流的需求。
    的頭像 發表于 05-22 14:28 ?1038次閱讀