国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

提高IT運維效率,深度解讀京東云基于自然語言處理的運維日志異常檢測AIOps落地實踐

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-05-22 16:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

基于NLP技術對運維日志聚類,從日志角度快速發現線上業務問題

日志在IT行業中被廣泛使用,日志的異常檢測對于識別系統的運行狀態至關重要。解決這一問題的傳統方法需要復雜的基于規則的有監督方法和大量的人工時間成本。我們提出了一種基于自然語言處理技術運維日志異常檢測模型。為了提高日志模板向量的質量,我們改進特征提取,模型中使用了詞性(PoS)和命名實體識別(NER)技術,減少了規則的參與,利用 NER 的權重向量對模板矢量進行了修改,分析日志模板中每個詞的 PoS 屬性,從而減少了人工標注成本,有助于更好地進行權重分配。為了修改模板向量,引入了對日志模板標記權重的方法,并利用深度神經網絡(DNN)實現了基于模板修正向量的最終檢測。我們的模型在三個數據集上進行了有效性測試,并與兩個最先進的模型進行了比較,評估結果表明,我們的模型具有更高的準確度。

日志是記錄操作系統等 IT 領域中的操作狀態的主要方法之一,是識別系統是否處于健康狀態的重要資源。因此,對日志做出準確的異常檢測非常重要。日志異常一般有三種類型,即異常個體日志、異常日志序列和異常日志定量關系。我們主要是識別異常個體日志,即包含異常信息的日志。

一般來說,日志的異常檢測包括三個步驟: 日志解析、特征提取和異常檢測。解析工具提取的模板是文本數據,應將其轉換為數字數據,以便于輸入到模型中。為此,特征提取對于獲得模板的數字表示是必要的。在模板特征提取方面,業界提出了多種方法來完成這一任務。獨熱編碼是最早和最簡單的方法之一,可以輕松地將文本模板轉換為便于處理的數字表示,但是獨熱編碼是一種效率較低的編碼方法,它占用了太多的儲存空間來形成一個零矢量,而且在使用獨熱編碼時,忽略了日志模板的語義信息。除了這種方便的編碼方法外,越來越多的研究人員應用自然語言處理(NLP)技術來實現文本的數字轉換,其中包括詞袋,word2vec 等方法。雖然上述方法可以實現從文本數據到數字數據的轉換,但在日志異常檢測方面仍然存在一些缺陷。詞袋和 word2vec 考慮到模板的語義信息,可以有效地獲得單詞向量,但是它們缺乏考慮模板中出現的每個模版詞的重要性調節能力。此外,深度神經網絡(DNN)也被用于模板的特征提取。

我們的模型主要改進特征提取,同時考慮每個標記的模版詞語義信息和權重分配,因為標記結果對最終檢測的重要性不同。我們利用兩種自然語言處理技術即PoS和命名實體識別(NER),通過以下步驟實現了模板特征的提取。具體來說,首先通過 FT-Tree 將原始日志消息解析為日志模板,然后通過 PoS 工具對模板進行處理,獲得模板中每個詞的 PoS 屬性,用于權重向量計算。同時,通過 word2vec 將模板中的標記向量化為初始模板向量,并利用權值向量對初始模板向量進行進一步修改,那些重要的模版詞的 PoS屬性將有助于模型更好地理解日志含義。對于標記完 PoS 屬性的模版詞,詞對異常信息識別的重要性是不同的,我們使用 NER 在模版的 PoS屬性中找出重要性高的模版詞,并且被 NER 識別為重要的模版詞將獲得更大的權重。然后,將初始模板向量乘以這個權重向量,生成一個復合模板向量,輸入到DNN模型中,得到最終的異常檢測結果。為了減少對日志解析的人力投入,并為權重計算做準備,我們采用了 PoS 分析方法,在不引入模板提取規則的情況下,對每個模版詞都標記一個 PoS 屬性。

解析模板的特征提取過程是異常檢測的一個重要步驟,特征提取的主要目的是將文本格式的模板轉換為數字向量,業界提出了各種模板特征提取方法:

One-hot 編碼:在 DeepLog 中,來自一組 k 模板ti,i∈[0,k)的每個輸入日志模板都被編碼為一個One-hot編碼。在這種情況下,對于日志的重要信息ti 構造了一個稀疏的 k 維向量 V = [ v0,v1,... ,vk-1] ,并且滿足j不等于i, j∈[0,k),使得對于所有vi= 1和 vj = 0。

自然語言處理(NLP):為了提取日志模板的語義信息并將其轉換為高維向量,LogRobust 利用現成的 Fast-Text 算法從英語詞匯中提取語義信息,能夠有效地捕捉自然語言中詞之間的內在關系(即語義相似性) ,并將每個詞映射到一個 k 維向量。使用 NLP 技術的各種模型也被業界大部分人使用,如 word2vec 和 bag-of-words 。

深度神經網絡(DNN):與使用 word2vec 或 Fast-Text 等細粒度單元的自然語言處理(NLP)不同,LogCNN 生成基于29x128codebook的日志嵌入,該codebook是一個可訓練的層,在整個訓練過程中使用梯度下降進行優化。

Template2Vec:是一種新方法,基于同義詞和反義詞來有效地表示模板中的詞。在 LogClass 中,將經典的加權方法 TF-IDF 改進為 TF-ILF,用逆定位頻率代替逆文檔頻率,實現了模板的特征構造。

一段原始日志消息是一個半結構化的文本,比如一個從在線支付應用程序收集的錯誤日志讀取為: HttpUtil-request 連接失敗,Read timeout at jave.net。它通常由兩部分組成,變量和常量(也稱為模板)。對于識別個體日志的異常檢測,目的是從原始日志解析的模板中識別是否存在異常信息。我們的模型使用 PoS 分析以及 NER 技術來進行更精確和省力的日志異常檢測。PoS 有助于過濾標記有不必要的 PoS 屬性的模版詞,NER的目標是將重要性分配給所有標記為重要的 PoS 屬性的模版詞。然后通過模板向量和權向量的乘積得到復合模板向量。

我們的日志異常檢測模型包括六個步驟,即模板解析、 PoS分析、初始向量構造、基于NER的權重計算、復合向量和最終檢測。檢測的整個過程如圖1所示:

wKgZPGgu4quAFNMLAAGcFpIi-Rc194.png

第一步:模板解析

初始日志是半結構化的文本,它們包含一些不必要的信息,可能會造成混亂或阻礙日志檢測。因此,需要預處理來省略變量,比如一些數字或符號,并提取常量,即模板。以前面提到的日志消息為例,原始日志HttpUtil-request 連接[wx/v1/pay/prepay]的模板失敗,Read timeout at jave.net。可以提取為: HttpUtil 請求連接 * 失敗讀取時間為 * 。我們使用簡單而有效的方法 FT-Tree 來實現日志解析,我們沒有引入復雜的基于規則的規則來去除那些不太重要的標記,比如停止詞。

第二步:PoS 分析

上一步的模版解析結果只有英語單詞、短語和一些非母語單詞保留在解析好的模板中,這些模版詞具有各種 PoS 屬性,例如 VB 和 NN。根據我們對大量日志模板的觀察,一些 PoS 屬性對于模型理解模板所傳達的意義很重要,而其他屬性可以忽略。如圖3所示,解析模板中的單詞“ at”在理論上是不必要的,相應的 PoS 屬性“ IN”也是不必要的,即使去掉 IN 的標記,我們仍然可以判斷模板是否正常。因此,在我們得到了 PoS 向量之后,我們可以通過去掉那些具有特定 PoS 屬性的模版詞來簡化模板。剩余的模版詞對于模型更好地理解模板內容非常重要。

wKgZO2gu4q2AWveWAAX9AD1mZHo788.png

第三步:初始模板向量構造

在獲得 PoS 矢量的同時,模板也被編碼成數字向量。為了考慮模板的語義信息,在模型中使用 word2vec 來構造模板的初始向量。該初始向量將與下一步得到的權重向量相乘,得到模板的復合優化表示。

第四步: 權重分析

首先對模板中的模版詞進行 PoS 分析處理,剔除無意義的模版詞。至于其余的模版詞,有些是關鍵的,用于傳達基本信息,如服務器操作、健康狀態等。其他的可能是不太重要的信息,比如動作的對象、警告級別等等。為了加大模型對這些重要模版詞的學習力度,我們構造了一個權重向量來突出這些重要的模版詞。為此,我們采用了 NER 技術,通過輸入已定義的重要實體,學習挑選標記為重要實體的所有模版詞。該過程如圖所示:

wKgZPGgu4q6AcxjHAAJDE6jLBuQ142.png

CRF 是 NER 通常使用的工具,它也被用于我們的模型識別模版詞的重要性。也就是說,通過向模型提供標記為重要的模版詞,模型可以學習識別那些未標注的日志的重要的模版詞。一旦模板中的模版詞被 CRF 識別出來,相應的位置就會賦予一個權重值(2.0)。因此,我們得到一個權向量 W。

第五步:復合向量

在獲得權重向量 W 之后,通過將初始向量 V’乘以權重向量 W,可以得到一個表示模板的復合優化向量 V。重要的模版詞分配更大權重,而其他的模版詞分配更小的。

第六步:異常檢測

將第五步得到的復合矢量 v 輸入到最終全連接層中,以便進行異常檢測。完全連通層的輸出分別為0或1,表示正常或異常。

?模型評估

我們通過實驗驗證了該模型對日志異常檢測的改進效果。采用了兩個公共數據集,以及一套我們內部數據集,來驗證我們模型的實用性。我們將自己的結果與業界針對日志異常檢測提出的兩個Deeplog 和 LogClass模型進行了比較。

CANet 的框架是用 PyTorch 構建的,我們在35個訓練周期中選擇新加坡隨機梯度下降(SGD)作為優化器。學習速度設定為2e4。所有的超參數都是從頭開始訓練的。

(1)數據集:我們選取了兩套公共集和一套公司內部數據集進行模型評估,BGL 和 HDFS 都是用于日志分析的兩個常用公共數據集:HDFS:是從運行基于 Hadoop 的作業的200多個 Amazon EC2節點收集的。它由11,175,629條原始日志消息組成,16,838條被標記為“異常”。BGL:收集自 BlueGene/L 超級計算機系統 ,包含4,747,963條原始日志消息,其中348,469條是異常日志。每條日志消息都被手動標記為異常或者正常。數據集 A:是從我們公司內部收集來進行實際驗證的數據集。它包含915,577條原始日志消息和210,172條手動標記的異常日志。

(2)base模型:我們將自己的模型在三個數據集上,與兩個業界最先進的模型(DeepLog和LogClass)進行比較:DeepLog:是一個基于深度神經網絡的模型,利用長短期記憶(LSTM)來實現檢測。DeepLog 采用一次性編碼作為模板向量化方法。LogClass:LogClass 提出了一種新的方法——逆定位頻率(ILF) ,在特征構造中對日志文字進行加權。這種新的加權方法不同于現有的反文檔頻率(IDF)加權方法。

(3)模型評估結果:我們從Precision、Recall和F1-score三個方面評估兩個base模型和我們的模型的異常檢測效果,在 HDFS 數據集上,我們的模型獲得了最高的 F1得分0.981,此外,我們的模型在召回方面也表現最好。LogClass 在Precision上取得了最好的成績,比我們的稍微高一點。在第二套數據集BGL上,我們的模型在召回率Recall(0.991)和 F1-score (0.986)方面表現最好,但在Precision上略低于 LogClass。在第三套數據集 A 上三個模型的性能,我們的模型實現了最佳性能,其次是 LogClass。

wKgZO2gu4q-APdg-AAOKVt8ONsg086.png

wKgZPGgu4rCAE8xqAAD6_vIEZmA627.png

在所有的數據集中,我們的模型具有最好的 F1得分和最高的召回率,這意味著我們的模型造成的不確定性更小。

?Natural Language Processing-based Model for Log Anomaly Detection. SEAI.

?ieeexplore檢索:https://ieeexplore.ieee.org/abstract/document/9680175

wKgZO2gu4rGAYSEmAAMCJ_U9umg130.png

wKgZO2gu4rOALZG1AAbpV8J0J6U076.jpg

?Themis智能運維平臺智能文本分析功能視圖:(http://jdtops.jd.com/)

wKgZO2gu4raAMMDTAAjdroK8RAw109.png

?團隊介紹:

京東科技從2018年開始建設智能運維,基于京東多年一線運維經驗,以大數據和人工智能技術為抓手,形成以應用為中心的一體化智能運維解決方案。利用京東內部歷年大促場景的數據積累,對算法進行不斷的優化訓練,在監控、數據庫、網絡、資源調度等多個縱向場景取得突破,可移植性強,自研通用化智能基線算法學件10+,自研通用化異常檢測算法學件10+,場景化異常檢測算法方案5+,具備多種自研通用化根因定位算法學件,可以自動觸發多維實時根因定位 ,從上萬維度屬性值中定位到根因維度,自研5種以上增量式學習模板提取與相關分析算法學件,運維知識圖譜內涵蓋節點30W+,以應用為中心向外延伸出的圖譜關系達90W+,賦能根因分析快速精準查詢調用。發表IEEE國際會議論文(AIOps方向)8篇,申請40余項智能運維專利。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14667
  • IT運維
    +關注

    關注

    0

    文章

    54

    瀏覽量

    3305
  • AIOps
    +關注

    關注

    0

    文章

    9

    瀏覽量

    1383
  • 京東云
    +關注

    關注

    0

    文章

    205

    瀏覽量

    254
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    新西蘭服務器必備:自動化監控與故障預警實踐

    在現代互聯網中,服務器的穩定運行至關重要。新西蘭的服務器同樣不例外,高效的監控和預警系統能夠顯著提高
    的頭像 發表于 02-26 14:26 ?159次閱讀

    AIOps 智能化:讓 IT 從 “被動救火” 到 “主動防御”

    前言在數字化時代,企業的IT系統就像城市的交通網絡,支撐著業務的每一次運轉。但隨著服務器、云集群、邊緣設備的數量激增,傳統靠人工盯著監控、排查日志的模式,早已跟不上系統的復雜程度——告警刷屏
    的頭像 發表于 02-12 14:09 ?1502次閱讀
    <b class='flag-5'>AIOps</b> 智能化<b class='flag-5'>運</b><b class='flag-5'>維</b>:讓 IT <b class='flag-5'>運</b><b class='flag-5'>維</b>從 “被動救火” 到 “主動防御”

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個分支,它會教計算機如何理解口頭和書面形式的人類語言自然語言處理將計算
    的頭像 發表于 01-29 14:01 ?370次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>NLP的概念和工作原理

    光伏電站數字化智能維系統如何驅動高效

    技術的深度融合,實現光伏電站從“被動維護”到“主動智能”的模式轉變,推動了能源管理的精細化與可持續化。 光伏電站數字化智能維系統的應用,以分層構建技術架構,實現數據采集、傳輸、
    的頭像 發表于 01-09 13:32 ?103次閱讀
    光伏電站數字化智能<b class='flag-5'>運</b>維系統如何驅動高效<b class='flag-5'>運</b><b class='flag-5'>維</b>?

    7×24小時AI服務:以 “-邊-” 架構重塑企業 IT 范式

    前言科技7×24小時AI管家,依托自主研發的“-邊-”智能
    的頭像 發表于 12-24 09:20 ?717次閱讀
    7×24小時AI<b class='flag-5'>運</b><b class='flag-5'>維</b>服務:以 “<b class='flag-5'>云</b>-邊-<b class='flag-5'>云</b>” 架構重塑企業 IT <b class='flag-5'>運</b><b class='flag-5'>維</b>范式

    新能源智慧管理系統應用場景解析

    新能源智慧管理系統這款綜合管理平臺,其應用效果旨在通過實時監控、數據分析和智能決策,優化新能源設備(如風電、光伏、儲能等)的運行效率,從而降低
    的頭像 發表于 12-02 11:53 ?383次閱讀
    新能源智慧<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統應用場景解析

    光伏電站管理系統這種管理模式的應用

    光伏電站管理系統針對不同光伏電站的模式、技術架構和功能模塊有著不同的類別,其中各功能模塊通過數據交互與流程銜接實現協同運作,來實現對光伏電站智能、高效的
    的頭像 發表于 11-18 15:40 ?377次閱讀
    光伏電站<b class='flag-5'>運</b><b class='flag-5'>維</b>管理系統這種<b class='flag-5'>運</b><b class='flag-5'>維</b>管理模式的應用

    光伏電站智能平臺是如何解決傳統核心痛點的?

    通過建設光伏電站智能平臺實現智能化管理,是應對傳統模式痛點、提升電站綜合效益的一種有
    的頭像 發表于 11-04 17:41 ?608次閱讀
    光伏電站智能<b class='flag-5'>運</b><b class='flag-5'>維</b>平臺是如何解決傳統<b class='flag-5'>運</b><b class='flag-5'>維</b>核心痛點的?

    無人機智能巡檢系統在光伏電站中的應用實踐

    ? ? ? ?無人機智能巡檢系統在光伏電站中的應用實踐 ? ? ? ?在光伏發電行業快速發展的背景下,智能無人機巡檢系統正以其獨特的技術優勢推動
    的頭像 發表于 10-21 10:18 ?431次閱讀

    鄂電在線監測系統在變電站中的落地應用

    ” 的落地架構,將智能化監測融入變電站全流程,實現從 “被動搶修” 到 “主動預警” 的轉型。 ?一、系統落地架構:適配變電站復雜場景 ?鄂電在線監測系統在變電站的
    的頭像 發表于 09-17 10:14 ?817次閱讀
    鄂電在線監測系統在變電站<b class='flag-5'>運</b><b class='flag-5'>維</b>中的<b class='flag-5'>落地</b>應用

    告別人工巡檢繁瑣,安科瑞電力平臺助力提升效率

    。傳統模式主要依賴人工巡檢、紙質記錄及事后處理,存在效率不高、故障響應不及時、成本較高、
    的頭像 發表于 09-16 14:41 ?603次閱讀
    告別人工巡檢繁瑣,安科瑞電力<b class='flag-5'>運</b><b class='flag-5'>維</b><b class='flag-5'>云</b>平臺助力提升<b class='flag-5'>運</b><b class='flag-5'>維</b><b class='flag-5'>效率</b>

    雙碳目標下的分布式光伏智能平臺架構與應用

    ANet-1E2S-4G網關集成多品牌逆變器數據,結合視頻監控與氣象站,實現電站全域監測;開發統一管理模塊支持任務閉環與流程定制;創新性引入組串電流離散率分析與光功率預測功能。 在海南13.6MW農業養殖場及香港8.6MW分布式電站的
    的頭像 發表于 08-19 08:12 ?568次閱讀
    雙碳目標下的分布式光伏智能<b class='flag-5'>運</b><b class='flag-5'>維</b><b class='flag-5'>云</b>平臺架構與應用

    AI集成管理平臺的架構與核心構成解析

    在數字化轉型浪潮下,企業IT基礎設施規模不斷擴大,系統架構日益復雜,傳統依賴人工的模式面臨著響應速度慢、故障定位難、成本高等諸多挑戰。Gartner在2016年首次提出
    的頭像 發表于 06-12 17:04 ?747次閱讀

    提高IT效率深度解讀京東AIOps落地實踐異常檢測篇)

    基于深度學習對時序指標進行異常檢測,快速發現線上業務問題 時間序列的異常
    的頭像 發表于 05-22 16:38 ?1031次閱讀
    <b class='flag-5'>提高</b>IT<b class='flag-5'>運</b><b class='flag-5'>維</b><b class='flag-5'>效率</b>,<b class='flag-5'>深度</b><b class='flag-5'>解讀</b><b class='flag-5'>京東</b><b class='flag-5'>云</b><b class='flag-5'>AIOps</b><b class='flag-5'>落地</b><b class='flag-5'>實踐</b>(<b class='flag-5'>異常</b><b class='flag-5'>檢測</b>篇)

    儲能平臺在換電站的應用 有效提高效率

    儲能平臺在換電站的應用是新能源汽車能源補給領域的重要創新,通過數字化技術優化換電站的能源管理、
    的頭像 發表于 03-19 14:00 ?985次閱讀