国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TECS資源池上報網絡流程異常告警的問題處理

中興文檔 ? 來源:中興文檔 ? 2023-06-07 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

某資源池TECS上報網絡流程異常告警,告警單次持續15秒-4分鐘之間。

涉及UDM/PCF網元OMU虛機和ISBG網元的OMP虛機,不間斷出現“網絡流量異常”告警。

問題分析如下:

1.告警發生在多個網元環境,涉及不通的主機以及主機集合,以及多個業務TOR,按照問題發生的規律性排除單臺的硬件故障。

2.在線TECS版本和硬件組合已在多個站點使用,未發生相關情況,排除軟件版本和硬件的兼容性問題。

3.結合具體現場情況,上層業務多為測試版本,需要重點定位在上層業務和TECS的配合。

4.按照問題發生的嚴重度,優先選擇告警最頻繁的網元虛擬機做抓包定位分析,同時結合歷史數據做規律性排查。

本次網絡流量異常告警涉及網絡虛機多,但問題原因類似,以下涉及的TECS以排查一個網元虛機為例。

1.通過告警詳情,TECS檢查虛機對應端口性能統計,如下圖所示。

59ff2850-0485-11ee-90ce-dac502259ad0.png

2.從告警詳情中得知虛機NFV-R-xxx-56OMP_L的vhu599f535d-1f端口在接收的21859個包中,丟了380個包,丟包率為1.7%。隨即統計了該虛機端口指標,發現虛機端口流入有丟包,端口流出沒有丟包。

3.TECS網絡流量異常告警產生機制,如圖5所示。

5a1d3e3a-0485-11ee-90ce-dac502259ad0.png

a.虛擬機的每一個虛口,對應DVS虛交換都有兩個隊列緩存,用于DVS和該虛口收發包的處理。一個收隊列(VM--->DVS方向,默認隊列長度1024),一個發隊列(DVS--->VM方向,默認隊列長度1024)。該告警是對應DVS的發隊列,即DVS發送報文給虛擬機的方向(圖中紅線示例部分)。

b.DVS收到物理口進來的報文后,根據相應的轉發規則,將對應的報文向不同的虛擬機的虛口轉發,發送的報文會進入發送隊列。

c.DVS根據隊列的標志位狀態決定是否產生中斷信號,通知虛擬機接收發送隊列的包(隊列標志位狀態由虛擬機內部收包進程維護:當虛擬機內正在處理收包時,置標志位狀態標記DVS為不需要發送中斷信號通知虛擬機處理收包;當虛擬機內沒有處理收包時,置標志位標記DVS為需要立即發送中斷信號通知虛擬機處理收包)。

d.當虛擬機沒能及時取走隊列的數據,DVS發向虛擬機虛口的報文填滿隊列時,則會出現隊列消息積壓,超過了隊列的長度,后續多余的報文就會因為無法入隊列而被丟棄,丟棄的報文數統計在overrun中。

e.DVS每隔5秒檢測一次overrun的統計和本周期內收包總數的比值,如果連續3次檢測,overrun的報文占比達到告警門限(丟包超過千分之一),就會上報告警。

f.計算節點上可以使用統計命令dvs show-dpifstats,采集所有虛擬機虛口和物理網口的收發包歷史統計信息,命令需要通過多次采集后,根據采集的結果,觀察虛口是否存在tx_overrun的統計增加。如果存在虛口在采集的周期內增加現象,說明虛擬機處理DVS發送隊列的報文不及時(或者處理能力不足),無法及時消費隊列的報文導致報文overrun。 g.DVS處理能力如下,本次問題的核心不是DVS的處理能力,而是在于業務虛擬機的處理能力。

25G網卡帶寬分配比例為0.24(DVS最大處理能力為12Gbps)。

10G網卡帶寬分配比例為0.35(DVS最大處理能力為 7Gbps)。

4.由于網絡流量異常告警不止一個種類的虛機,統計了4個月非凌晨操作時間的“網絡流量異常”的歷史告警,結果如下圖所示。

5a27f582-0485-11ee-90ce-dac502259ad0.png

5.采集觀察每一類虛機指標發現,丟包均為DVS 發送報文給虛擬機的方向。且同類型虛機都是入向到端口有丟包,可以判定是上層網元虛機原因,需要上層業務虛機側協助排查。

6.UDM/PCF網元OMU虛機:

a.現場停止OMU虛機的端到端信令跟蹤任務后,告警不再出現。

b.現網OMU創建大量端到端信令跟蹤任務,未及時進行清理,會出現該現象,原因為:現場OMU 有N個SC。

c.當前信令跟蹤任務同步機制為:每條信令跟蹤任務數據約4K記錄,需要全表同步,即每次信令跟蹤任務激活,都會把所有信令跟蹤任務數據全量同步至前臺。

d.此外,MP向SC同步數據時,要乘以SC個數,即每次要同步N*4K*300的數據。大包需要進行分包,造成一次往前臺同步的數據量很大,造成虛機流量過大,出現告警。

e.TIPI是立刻重傳,只要接收方發現接收的消息不連續,會給發送消息方請求重傳,請求方接收到重傳請求,會立刻重傳。

7.ISBG網元的OMP虛機:

針對資源池DVS進行抓包分析,發現存在瞬間大量包集中收發情況,5秒內瞬時沖高收發27000個包,之后立即恢復正常,如下圖所示。

5a36ba68-0485-11ee-90ce-dac502259ad0.png

a.收發包峰值時刻深入分析確定,峰值收發包均由網元性能統計采集數據產生。

b.以日志采集為例,該時刻約產生27000個包,其中“SCSCF 用戶數按模塊統計”性能統計任務瞬間產生12596個包;“內存庫占用按模塊統計”性能統計任務瞬間產生13617個包。

c.兩個性能統計任務瞬間合計產生26213個包(12596+13617=26213),說明資源池產生流量峰值與“SCSCF 用戶數按模塊統計”、“內存庫占用按模塊統計”兩個性能統計任務有關聯。

8.S-CSCF用戶數按模塊統計,如下圖所示。

5a54c684-0485-11ee-90ce-dac502259ad0.png

9.內存庫占用按模塊統計,如下圖所示。

5a67e48a-0485-11ee-90ce-dac502259ad0.png

10.查看“SCSCF 用戶數按模塊統計”、“內存庫占用按模塊統計”性能統計任務發現:

a.兩性能統計任務勾選全量模塊對象,實際應用中只需勾選真實激活的SMP模塊即可(CDB、OMP以及未激活SMP模塊無需勾選),按真實應用只需勾選47個SMP測量對象。

b.其余勾選的測量對象(CDB、OMP以及未激活SMP模塊)為無效對象,導致處理性能統計上報的網卡上流量突增,流量突增時會影響底層資源池產生瞬時流量告警。

c.性能統計與外部信令交互區分通道執行,此性能統計流量瞬時突增不會波及VoLTE業務流程,對業務無影響。

d.此性能統計流量突增產生少量丟包情況。由于性能統計數據上報有重傳機制保障,不會影響性能統計數據整粒度采集,所以對性能統計數據呈現無影響。此外,由于流量沖高是瞬時行為,因此對網元自身CPU影響不大。

11.“SCSCF 用戶數按模塊統計”、“內存庫占用按模塊統計”兩個統計任務勾選了大量的無效性能統計測量對象,導致性能統計數據采集異常,單個網卡流量短暫沖高,偶發性造成短時間少量丟包,導致底層資源池產生端口流量異常告警,但不會影響網元業務及性能統計。

1.通過如下方式暫時規避該問題:

a.UDM / PCF:現場測試階段,盡量控制信令跟蹤任務在30個以下,完成測試后刪除測試號碼的跟蹤任務。

b.ISBG:“SCSCF 用戶數按模塊統計”、“內存庫占用按模塊統計”兩個統計任務去除測量對象勾選。

2.網絡流量異常告警是監控上層網元運行正常的重要告警之一,例如當上層網元虛機有下電或者重啟都會產生網絡流量異常告警,可通過告警信息判斷涉及網元、對應虛機及端口。

3.本次網絡流量異常告警主要是因為上層網元有抓包或信令跟蹤導致,告警本身無業務影響。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PCF
    PCF
    +關注

    關注

    0

    文章

    32

    瀏覽量

    21311
  • DVS
    DVS
    +關注

    關注

    0

    文章

    18

    瀏覽量

    9916
  • 虛擬機
    +關注

    關注

    1

    文章

    972

    瀏覽量

    30466
  • ToR
    ToR
    +關注

    關注

    0

    文章

    8

    瀏覽量

    10629
  • NFV
    NFV
    +關注

    關注

    3

    文章

    118

    瀏覽量

    34869

原文標題:TECS資源池上報網絡流程異常告警的問題處理

文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何控制告警聲音,或者實現長鳴告警

    如何控制告警聲音,或者實現長鳴告警
    發表于 01-20 17:10

    使用setjmp及longjmp函數處理異常

    ,例如在發生錯誤或異常時,直接跳轉到錯誤處理資源釋放的代碼,而不需要逐層返回。setjmp和longjmp函數定義在setjmp.h頭文件中,其語法為: int setjmp(jmp_buf
    發表于 12-11 08:00

    電能質量在線監測裝置的多級告警閾值功能是如何實現的?

    與設備耐受度。以下從技術架構、實現流程、核心機制三方面詳細解析: 一、技術架構:分層實現多級告警能力 多級告警閾值功能的實現依賴于硬件層、數據處理層、閾值管理層、
    的頭像 發表于 12-10 14:32 ?495次閱讀
    電能質量在線監測裝置的多級<b class='flag-5'>告警</b>閾值功能是如何實現的?

    C++程序異常處理機制

    1、什么是異常處理? 有經驗的朋友應該知道,在正常的C和C++編程過程中難免會碰到程序不按照原本設計運行的情況。 最常見的有除法分母為零,數組越界,內存分配失效、打開相應文件失敗等等。 一個程序
    發表于 12-02 07:12

    線路保護光纖通道異常處理方法

    通道異常的 常見原因、處理步驟及預防措施 ,幫助運維人員快速定位問題,提升故障處理效率。 廣州郵科光纖線路保護系統 一、光纖通道異常的常見表現 當線路保護光纖通道出現
    的頭像 發表于 11-17 10:01 ?1108次閱讀
    線路保護光纖通道<b class='flag-5'>異常</b><b class='flag-5'>處理</b>方法

    如何處理電能質量在線監測裝置時鐘模塊自動同步異常的情況?

    針對性解決方案。以下是具體處理流程和操作方法: 一、通用前置步驟:明確異常類型與核心信息 處理前需先收集關鍵信息,避免盲目操作: 確認同步方式 :通過裝置 Web 界面或手冊,明確當前
    的頭像 發表于 10-27 10:16 ?969次閱讀

    交換機光模塊收發光超閾值無告警問題的處理方法

    某互聯網電視CDN網絡使用ZXR10 5960-56QU-HC交換機作為承載設備,通過光口與城域網設備以及CDN服務器對接,承載互聯網電視視頻流量。日常運行中發現設備沒有上報光模塊收發光超閾值告警,造成無法對互聯網電視的
    的頭像 發表于 10-16 09:34 ?878次閱讀
    交換機光模塊收發光超閾值無<b class='flag-5'>告警</b>問題的<b class='flag-5'>處理</b>方法

    碳化硅襯底 TTV 厚度測量數據異常的快速診斷與處理流程

    摘要 本文針對碳化硅襯底 TTV 厚度測量中出現的數據異常問題,系統分析異常類型與成因,構建科學高效的快速診斷流程,并提出針對性處理方法,旨在提升數據
    的頭像 發表于 08-14 13:29 ?1208次閱讀
    碳化硅襯底 TTV 厚度測量數據<b class='flag-5'>異常</b>的快速診斷與<b class='flag-5'>處理</b><b class='flag-5'>流程</b>

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    有效降低整體運維成本l 優化人力資源:AI自動化處理大量重復性監控、初步分析與告警任務,釋放高級工程師精力,使其專注于更具戰略性的復雜問題與創新。l 提升資源利用率:AI可基于分析結果
    發表于 07-16 15:29

    C#上位機與運動控制卡網絡通訊的周期上報

    使用C#上位機編程實現運動控制卡網絡通訊的周期上報功能
    的頭像 發表于 06-26 13:59 ?828次閱讀
    C#上位機與運動控制卡<b class='flag-5'>網絡</b>通訊的周期<b class='flag-5'>上報</b>

    TECS OpenStack資源池虛擬機網絡二層地址無法互通的問題處理

    某運營商TECS OpenStack使用主機overlay SDN方案組網,運維人員在創建虛擬機測試虛擬機網絡狀態時發現問題:在其中一臺主機上創建兩臺同網段虛擬機,虛擬機之間二層地址無法Ping通,但是可以Ping通網關地址,如圖1所示。
    的頭像 發表于 06-12 09:28 ?879次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛擬機<b class='flag-5'>網絡</b>二層地址無法互通的問題<b class='flag-5'>處理</b>

    異常零流量小區檢測功能介紹

    隨著5G部署規模不斷擴大,網管KPI的分析需求突增也日益顯著,存在用戶感知問題無法從告警和KPI數值中直接體現的情況;或者某些小區存在故障而網絡維護工程師無法及時監控識別出來。異常零流量小區,就是指
    的頭像 發表于 03-22 09:54 ?1089次閱讀
    <b class='flag-5'>異常</b>零流量小區檢測功能介紹

    TECS OpenStack資源池主機磁盤分區使用率過高的問題處理

    某運營商TECS資源池上報“主機磁盤分區使用率過高”的告警,如下圖所示。
    的頭像 發表于 03-21 09:47 ?1020次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池主機磁盤分區使用率過高的問題<b class='flag-5'>處理</b>

    TECS OpenStack資源池虛機寫磁盤時延高告警的問題處理

    某運營商TECS資源池,在當前告警中顯示“虛機寫磁盤時延高告警”,如下圖所示。告警統計總體平均10分鐘左右自動恢復。
    的頭像 發表于 03-21 09:36 ?1016次閱讀
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>資源</b>池虛機寫磁盤時延高<b class='flag-5'>告警</b>的問題<b class='flag-5'>處理</b>

    能源管理移動革命:異常告警秒級響應+能效報告自動生成

    新一代能源管理系統通過移動化革命和異常告警秒級響應機制,實現能源管理實時化、智能化新紀元。它通過物聯網設備采集數據,邊緣計算節點進行分析,管理人員移動終端獲取預警信息。通過故障預測模型,系統提前預警,避免生產事故。
    的頭像 發表于 03-11 09:46 ?798次閱讀
    能源管理移動革命:<b class='flag-5'>異常</b><b class='flag-5'>告警</b>秒級響應+能效報告自動生成