国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

服務(wù)器“異常”的幾個(gè)可能性預(yù)警請(qǐng)重視!

恒創(chuàng)主機(jī)服務(wù)器 ? 來(lái)源:恒創(chuàng)主機(jī)服務(wù)器 ? 作者:恒創(chuàng)主機(jī)服務(wù)器 ? 2023-04-06 17:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

提到服務(wù)器宕機(jī)檢測(cè),大家會(huì)想到,宕機(jī)能夠很快知道,這個(gè)有什么可做的?實(shí)際上,很多時(shí)候服務(wù)器宕機(jī),并不總是被及時(shí)感知。服務(wù)器宕機(jī),ping或者ssh這是最簡(jiǎn)單的做法,但真正的工程實(shí)踐,沒這么簡(jiǎn)單。

想要獲知服務(wù)器宕機(jī)怎么辦?可以通過(guò)服務(wù)器宕機(jī)實(shí)時(shí)檢測(cè):

1)發(fā)現(xiàn)宕機(jī)。

2)提前告警。

3)告知宕機(jī)的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。

4)自動(dòng)報(bào)修生成工單。

我們知道,進(jìn)行全網(wǎng)物理機(jī)宕機(jī)準(zhǔn)確探測(cè)與實(shí)時(shí)發(fā)現(xiàn),可以給宕機(jī)分析提供第一現(xiàn)場(chǎng),獲取第一現(xiàn)場(chǎng)的日志。也可以盡早將宕機(jī)數(shù)據(jù)推送給業(yè)務(wù)或運(yùn)營(yíng)感知并處理,如自動(dòng)報(bào)修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到最低。

更重要的是,準(zhǔn)確的宕機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為宕機(jī)預(yù)測(cè)提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機(jī)預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運(yùn)營(yíng)部門進(jìn)行整體分析,提升處理效率。

那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機(jī),減少誤報(bào)呢?我們可以有以下操作,比如:

心跳源檢測(cè)異常

顧名思義,通過(guò)心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會(huì)有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長(zhǎng)連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報(bào)一次,但當(dāng)NC異常時(shí),長(zhǎng)連接感知后,立即上報(bào)異常,并修改路由表。所以心跳異常做到秒級(jí)感知。

update消息,在有心跳發(fā)生變化情況下都會(huì)有,心跳異常和心跳恢復(fù)正常時(shí)都會(huì)發(fā)起,是主要的心跳來(lái)源。

delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長(zhǎng)。

insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對(duì)宕機(jī)發(fā)現(xiàn)價(jià)值不大,配合uptime使用。

心跳源檢測(cè)任務(wù)邏輯,主要是監(jiān)聽并緩存uptime消息,同時(shí)避免時(shí)間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。

異常排除

排除非物理機(jī)器,將系統(tǒng)中暫時(shí)不關(guān)注的VM等產(chǎn)生的異常信息排除掉。

排除非業(yè)務(wù)狀態(tài)的機(jī)器,如裝機(jī)狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷毀中,重啟中,無(wú)管控狀態(tài),只監(jiān)控正常狀態(tài)的機(jī)器。

排除非正在工作的機(jī)器,如非working狀態(tài)機(jī)器。

網(wǎng)絡(luò)干擾排除

宕機(jī)分析中,較多誤報(bào)是由于網(wǎng)絡(luò)問題干擾,無(wú)法準(zhǔn)確判斷出物理機(jī)是否宕機(jī),有可能是網(wǎng)絡(luò)問題。

排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報(bào),包括機(jī)房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過(guò)探測(cè)丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問題。

服務(wù)器本身未丟包的誤報(bào),除了需要過(guò)濾出網(wǎng)絡(luò)問題,還要通過(guò)丟包數(shù)據(jù)分析,過(guò)濾掉SA誤報(bào)問題, SA異常會(huì)上報(bào)心跳異常,被誤理解為宕機(jī)。

icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個(gè)不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時(shí)間窗內(nèi)兩項(xiàng)數(shù)據(jù)的丟包情況

特殊情況干擾排除

個(gè)別機(jī)房有時(shí)候會(huì)出現(xiàn)大面積風(fēng)暴式的無(wú)故心跳異常,同時(shí)網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報(bào),一般根據(jù)具體case具體進(jìn)行針對(duì)性的分析。如根據(jù)監(jiān)控每個(gè)機(jī)房的上報(bào)頻率,排除干擾。

進(jìn)一步識(shí)別誤報(bào)

至此,大部分干擾已經(jīng)過(guò)濾掉,但仍有一部分誤報(bào)隱藏其中。比如心跳異常,ping異常,都合乎宕機(jī)判斷的邏輯,會(huì)導(dǎo)致誤判成宕機(jī),如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不是異常,需要排除掉。再例如服務(wù)器并沒有掛掉,但是IO延時(shí)和資源占用率各項(xiàng)指標(biāo)都不正常等場(chǎng)景。針對(duì)以上等情況,增加uptime判斷以及帶外日志分析排查。

宕機(jī)時(shí)間點(diǎn)探測(cè)uptime確定是否發(fā)生重啟。

進(jìn)一步通過(guò)分析日志是否連續(xù),判斷是否發(fā)生重啟。

日志重啟特征值匹配,確認(rèn)是否發(fā)生重啟。

如果還不能確定,使用uptime的時(shí)間窗技術(shù)進(jìn)行重啟。

仍不能確定的待處理,進(jìn)入長(zhǎng)尾處理名單。

長(zhǎng)尾再次處理

未確認(rèn)的待處理的,會(huì)加入到長(zhǎng)尾列表中,像這種分鐘級(jí)的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機(jī),死到連網(wǎng)絡(luò)都不通的場(chǎng)景。會(huì)觀察一段時(shí)間,一個(gè)固定時(shí)間窗內(nèi)仍未恢復(fù)或重啟的話,就暫時(shí)報(bào)宕機(jī)。后期會(huì)把這種死機(jī)單獨(dú)找劃分歸類。

講了這么多,到底效果怎么樣?

我們從準(zhǔn)確率和覆蓋率來(lái)看:

準(zhǔn)確率:目前發(fā)現(xiàn)的宕機(jī)中有很高準(zhǔn)確度,可以區(qū)分出真正宕機(jī)或者未宕機(jī)。而判斷為宕機(jī)的數(shù)據(jù)中,也存在少量的,由于缺少相關(guān)信息導(dǎo)致誤報(bào),該部分將進(jìn)一步優(yōu)化,逐漸降低誤報(bào),在新的措施之后,該比例會(huì)接近0。

覆蓋率:當(dāng)前統(tǒng)計(jì)的覆蓋率已經(jīng)能很好的支撐日常宕機(jī)處理,該數(shù)據(jù)在有足夠的特征后,會(huì)進(jìn)一步提升。

目前,宕機(jī)感知是宕機(jī)分析的基礎(chǔ),通過(guò)服務(wù)器宕機(jī)實(shí)時(shí)檢測(cè),會(huì)把相應(yīng)的宕機(jī)原因分布整理出來(lái),明確具體的原因,達(dá)成服務(wù)器極致可靠性。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7335

    瀏覽量

    94757
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    14

    文章

    10251

    瀏覽量

    91480
  • TCP
    TCP
    +關(guān)注

    關(guān)注

    8

    文章

    1424

    瀏覽量

    83503
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    新西蘭服務(wù)器運(yùn)維必備:自動(dòng)化監(jiān)控與故障預(yù)警實(shí)踐

    。 什么是自動(dòng)化監(jiān)控與故障預(yù)警? 自動(dòng)化監(jiān)控與故障預(yù)警服務(wù)器運(yùn)維中的一種實(shí)踐,通過(guò)自動(dòng)化手段對(duì)服務(wù)器進(jìn)行持續(xù)監(jiān)控,實(shí)時(shí)捕捉性能數(shù)據(jù),并在發(fā)現(xiàn)異常
    的頭像 發(fā)表于 02-26 14:26 ?151次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—RAIDZ多盤離線導(dǎo)致服務(wù)器崩潰的數(shù)據(jù)恢復(fù)案例

    某存儲(chǔ)設(shè)備中一共有40塊磁盤組建存儲(chǔ)池,其中4塊磁盤作為全局熱備盤使用。存儲(chǔ)池內(nèi)劃分出若干空間映射到服務(wù)器使用。 服務(wù)器存儲(chǔ)設(shè)備在沒有斷電、進(jìn)水、異常操作、供電不穩(wěn)定等外部因素的情況下突然崩潰。管理員重啟
    的頭像 發(fā)表于 12-11 14:16 ?257次閱讀
    <b class='flag-5'>服務(wù)器</b>數(shù)據(jù)恢復(fù)—RAIDZ多盤離線導(dǎo)致<b class='flag-5'>服務(wù)器</b>崩潰的數(shù)據(jù)恢復(fù)案例

    時(shí)間同步服務(wù)器為地震預(yù)警系統(tǒng)精準(zhǔn)授時(shí)

    服務(wù)器
    西安同步電子科技有限公司
    發(fā)布于 :2025年12月03日 17:14:53

    NTP授時(shí)同步服務(wù)器在地震預(yù)警中的作用

    服務(wù)器
    西安同步電子科技有限公司
    發(fā)布于 :2025年11月12日 17:08:45

    高防服務(wù)器對(duì)CC攻擊的防御原理是什么?

    連接等核心計(jì)算資源,導(dǎo)致網(wǎng)站響應(yīng)緩慢甚至癱瘓。 高防服務(wù)器的防御體系,就是一套智能的“安檢和過(guò)濾系統(tǒng)”,其核心原理可以概括為以下幾個(gè)步驟: 防御原理一:流量調(diào)度與“戰(zhàn)場(chǎng)”隔離 當(dāng)高防系統(tǒng)檢測(cè)到異常流量時(shí),首先做的不是讓流量直接
    的頭像 發(fā)表于 10-16 09:29 ?616次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)—RAIDZ多塊硬盤離線導(dǎo)致服務(wù)器崩潰的數(shù)據(jù)恢復(fù)案例

    服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障: 一臺(tái)服務(wù)器有32塊硬盤,采用Windows操作系統(tǒng)。 服務(wù)器在正常運(yùn)行的時(shí)候突然變得不可用。沒有異常斷電、進(jìn)水、異常
    的頭像 發(fā)表于 09-18 12:29 ?892次閱讀
    <b class='flag-5'>服務(wù)器</b>數(shù)據(jù)恢復(fù)—RAIDZ多塊硬盤離線導(dǎo)致<b class='flag-5'>服務(wù)器</b>崩潰的數(shù)據(jù)恢復(fù)案例

    Linux服務(wù)器入侵檢測(cè)與應(yīng)急響應(yīng)流程

    作為一名運(yùn)維工程師,你是否曾在凌晨3點(diǎn)接到告警電話?服務(wù)器異常、流量暴增、CPU飆升...這些可能都是入侵的征兆。本文將分享一套完整的Linux服務(wù)器入侵檢測(cè)與應(yīng)急響應(yīng)流程,讓你在面對(duì)
    的頭像 發(fā)表于 08-21 17:29 ?1590次閱讀

    華納云服務(wù)器角色服務(wù)器失敗的原因和解決辦法

    是常見的,這可能導(dǎo)致數(shù)據(jù)丟失、系統(tǒng)停機(jī)和效率降低等嚴(yán)重后果。因此,了解服務(wù)器角色故障的原因和影響,并采取有效的預(yù)防措施,對(duì)于確保業(yè)務(wù)連續(xù)和數(shù)據(jù)安全至關(guān)重要。 一、
    的頭像 發(fā)表于 07-17 18:18 ?566次閱讀

    服務(wù)器數(shù)據(jù)恢復(fù)——服務(wù)器異常斷電導(dǎo)致raid模塊損壞的數(shù)據(jù)恢復(fù)案例

    服務(wù)器上有一組由12塊硬盤組建的raid5磁盤陣列。 機(jī)房供電不穩(wěn)定導(dǎo)致機(jī)房中該服務(wù)器非正常斷電,重啟服務(wù)器后管理員發(fā)現(xiàn)服務(wù)器無(wú)法正常使用。 意外斷電
    的頭像 發(fā)表于 06-24 16:34 ?529次閱讀

    服務(wù)器機(jī)房用UPS系統(tǒng)的理由,可能導(dǎo)致文件損壞

    服務(wù)器機(jī)房使用UPS系統(tǒng)的重要   為了更高效地運(yùn)行服務(wù)器機(jī)房,提高數(shù)字活動(dòng)的可持續(xù)非常重要。
    的頭像 發(fā)表于 06-10 15:30 ?824次閱讀
    <b class='flag-5'>服務(wù)器</b>機(jī)房用UPS系統(tǒng)的理由,<b class='flag-5'>可能</b>導(dǎo)致文件損壞

    國(guó)外bgp服務(wù)器多少錢?# 服務(wù)器

    服務(wù)器
    jf_57681485
    發(fā)布于 :2025年04月24日 14:19:00

    新加坡服務(wù)器延遲大嗎?真相在這里#新加坡服務(wù)器 #服務(wù)器

    服務(wù)器
    jf_57681485
    發(fā)布于 :2025年04月18日 13:48:50

    AI 推理服務(wù)器都有什么?2025年服務(wù)器品牌排行TOP10與選購(gòu)技巧

    根據(jù)行業(yè)數(shù)據(jù),AI推理服務(wù)器的性能差異可以達(dá)到10倍以上。比如,用普通服務(wù)器跑一個(gè)700億參數(shù)的大模型,可能需要30秒才能出結(jié)果,而用頂級(jí)服務(wù)器可能
    的頭像 發(fā)表于 04-09 11:06 ?8578次閱讀
    AI 推理<b class='flag-5'>服務(wù)器</b>都有什么?2025年<b class='flag-5'>服務(wù)器</b>品牌排行TOP10與選購(gòu)技巧

    NTP校時(shí)服務(wù)器 時(shí)鐘同步服務(wù)器

    服務(wù)器
    jf_75250307
    發(fā)布于 :2025年03月19日 20:56:34