“亞健康”這個(gè)詞不僅在生活中被熟知,而且大家經(jīng)常使用的信息系統(tǒng)中也會(huì)經(jīng)常遇到;亞健康狀態(tài),顧名思義,是存儲(chǔ)系統(tǒng)介于健康狀態(tài)和故障狀態(tài)之間的一種狀態(tài),系統(tǒng)仍在運(yùn)行且功能正常但處于降級(jí)模式的一種情況,它的存在會(huì)造成系統(tǒng)性能?chē)?yán)重低于預(yù)期。
浪潮存儲(chǔ)基于對(duì)亞健康狀態(tài)的研究,在分布式存儲(chǔ)平臺(tái)進(jìn)行技術(shù)創(chuàng)新,研發(fā)了亞健康狀態(tài)監(jiān)控功能,對(duì)硬件、系統(tǒng)、網(wǎng)絡(luò)等進(jìn)行實(shí)時(shí)監(jiān)測(cè),當(dāng)系統(tǒng)發(fā)現(xiàn)運(yùn)行過(guò)程中存在亞健康狀態(tài)時(shí),可快速定位原因、上報(bào)、并對(duì)處于亞健康的部件進(jìn)行必要的處理,降低亞健康狀態(tài)對(duì)存儲(chǔ)系統(tǒng)的影響,保障用戶(hù)數(shù)據(jù)服務(wù)的可靠、高效。
過(guò)去因大部分應(yīng)用系統(tǒng)規(guī)模較小,一般會(huì)將亞健康狀態(tài)劃歸到故障進(jìn)行處理,系統(tǒng)在這種情況下雖處于亞健康狀態(tài),但仍可以對(duì)外提供服務(wù),處于亞健康的部件卻被當(dāng)成故障處理擴(kuò)大了亞健康狀態(tài)的影響范圍,有時(shí)甚至?xí)?dǎo)致系統(tǒng)不可提供服務(wù),也造成了資源浪費(fèi)。近十年,隨著新技術(shù)的快速發(fā)展,以及分布式系統(tǒng)部署規(guī)模的增加,亞健康狀態(tài)對(duì)于存儲(chǔ)系統(tǒng)的破壞已經(jīng)越來(lái)越顯著,之前亞健康狀態(tài)處理方式已經(jīng)不適合現(xiàn)在的大規(guī)模系統(tǒng)。亟待更加智能、高效的機(jī)制來(lái)保障存儲(chǔ)系統(tǒng)健康運(yùn)行。
亞健康狀態(tài)是隱形的系統(tǒng)殺手
以網(wǎng)絡(luò)亞健康為例,網(wǎng)卡故障、驅(qū)動(dòng)程序故障、設(shè)備故障、接線(xiàn)松動(dòng)、溫度過(guò)高過(guò)低等都可能引起網(wǎng)絡(luò)亞健康狀態(tài),盡管產(chǎn)生網(wǎng)絡(luò)亞健康狀態(tài)的原因眾多,但其對(duì)外表現(xiàn)的現(xiàn)象相對(duì)簡(jiǎn)單,主要是網(wǎng)絡(luò)時(shí)延的增加和網(wǎng)絡(luò)丟包率的增加。如下為網(wǎng)絡(luò)丟包率和時(shí)延對(duì)分布式存儲(chǔ)系統(tǒng)性能的影響。


在一個(gè)分布式存儲(chǔ)系統(tǒng)中,單個(gè)節(jié)點(diǎn)網(wǎng)絡(luò)丟包率或網(wǎng)絡(luò)時(shí)延增加時(shí),存儲(chǔ)系統(tǒng)的性能會(huì)極快速的下降,5%的丟包率或50ms時(shí)延,就足以使存儲(chǔ)系統(tǒng)性能下降一半左右。
從網(wǎng)絡(luò)亞健康實(shí)例中可以看出,亞健康狀態(tài)對(duì)系統(tǒng)的危害,微小的一個(gè)亞健康狀態(tài),對(duì)系統(tǒng)性能的影響都是巨大的。此外CPU、內(nèi)存、硬盤(pán)模塊、網(wǎng)卡等硬件部件、操作系統(tǒng)以及軟件運(yùn)行均有可能進(jìn)入亞健康狀態(tài)。
浪潮存儲(chǔ)基于大量來(lái)自企業(yè)、大學(xué)、實(shí)驗(yàn)室等案例的亞健康狀態(tài)的研究,進(jìn)行了故障分類(lèi)和根因分析,可以看出,硬件亞健康狀態(tài)占比33%,網(wǎng)絡(luò)亞健康狀態(tài)占比38%,這兩類(lèi)故障占比超過(guò)整體的70%。

△亞健康狀態(tài)案例比例
亞健康狀態(tài)監(jiān)控
讓分布式存儲(chǔ)運(yùn)行更穩(wěn)定
基于對(duì)亞健康狀態(tài)的表象根因等分析與研究,浪潮在分布式存儲(chǔ)上實(shí)現(xiàn)了亞健康狀態(tài)監(jiān)控功能,對(duì)硬件亞健康狀態(tài)、系統(tǒng)亞健康狀態(tài)以及網(wǎng)絡(luò)亞健康狀態(tài)的實(shí)時(shí)監(jiān)控,當(dāng)系統(tǒng)發(fā)現(xiàn)運(yùn)行過(guò)程中存在亞健康狀態(tài)時(shí),可快速定位亞健康狀態(tài)的原因、上報(bào)故障、并對(duì)亞健康的部件進(jìn)行必要的處理(如嘗試恢復(fù)、隔離部件等),最大限度的降低亞健康狀態(tài)對(duì)存儲(chǔ)系統(tǒng)的影響。
浪潮分布式存儲(chǔ)AS13000配置了亞健康狀態(tài)監(jiān)控之后可以進(jìn)行亞健康狀態(tài)監(jiān)控告警服務(wù)的同時(shí)還具有如下優(yōu)勢(shì):
01精準(zhǔn)定位
亞健康狀態(tài)的場(chǎng)景復(fù)雜,癥狀、根因眾多,檢測(cè)難度大。亞健康狀態(tài)監(jiān)控系統(tǒng)通過(guò)建立硬件亞健康檢測(cè)、網(wǎng)絡(luò)亞健康檢測(cè)以及系統(tǒng)亞健康檢測(cè)的機(jī)制,有效的覆蓋了亞健康狀態(tài)的各種檢測(cè)場(chǎng)景,再加上檢測(cè)信息的精準(zhǔn)分析,能更精準(zhǔn)的定位亞健康狀態(tài)。
02快速處理
存儲(chǔ)系統(tǒng)長(zhǎng)期以亞健康狀態(tài)的狀態(tài)運(yùn)行,會(huì)影響整體性能,監(jiān)控功能可以在短期內(nèi)發(fā)現(xiàn)亞健康狀態(tài),并及時(shí)做出必要的處理。以往為了確保系統(tǒng)運(yùn)行的穩(wěn)定性,運(yùn)維人員預(yù)計(jì)需要每周執(zhí)行一次巡檢腳本,對(duì)整個(gè)集群進(jìn)行健康巡檢。這種方式一方面時(shí)效性差,平均3-4天才可以發(fā)現(xiàn)問(wèn)題;另一方面是巡檢腳本檢測(cè)并不全面。亞健康狀態(tài)監(jiān)控可以150秒內(nèi)發(fā)現(xiàn)網(wǎng)絡(luò)亞健康狀態(tài)并進(jìn)行網(wǎng)口隔離處理、30分鐘內(nèi)發(fā)現(xiàn)系統(tǒng)亞健康狀態(tài)并告警、60分鐘內(nèi)發(fā)現(xiàn)磁盤(pán)溫度異常并告警等;平均發(fā)現(xiàn)系統(tǒng)亞健康狀態(tài)并處理的時(shí)間縮短了四分之三,并且檢測(cè)的項(xiàng)目更全面、結(jié)果更準(zhǔn)確。

具備亞健康狀態(tài)監(jiān)控功能的分布式存儲(chǔ)AS13000,已經(jīng)在金融、通信、教科研、醫(yī)療等行業(yè)規(guī)模部署,在運(yùn)行過(guò)程中亞健康狀態(tài)監(jiān)控功能快速響應(yīng)機(jī)制,降低了亞健康狀態(tài)對(duì)存儲(chǔ)系統(tǒng)的影響與運(yùn)維成本,保障了客戶(hù)業(yè)務(wù),讓企業(yè)輕松應(yīng)對(duì)數(shù)字經(jīng)濟(jì)時(shí)代的海量數(shù)據(jù)挑戰(zhàn)。
審核編輯 :李倩
-
存儲(chǔ)
+關(guān)注
關(guān)注
13文章
4791瀏覽量
90066 -
浪潮
+關(guān)注
關(guān)注
1文章
476瀏覽量
25423 -
存儲(chǔ)系統(tǒng)
+關(guān)注
關(guān)注
2文章
433瀏覽量
41897
原文標(biāo)題:“亞健康”智能監(jiān)測(cè),浪潮分布式存儲(chǔ)讓數(shù)據(jù)更可靠
文章出處:【微信號(hào):inspurstorage,微信公眾號(hào):浪潮存儲(chǔ)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
深入解析ADI LTC3337:初級(jí)電池健康狀態(tài)監(jiān)測(cè)的利器
如何打破“亞健康”的電源供應(yīng)鏈關(guān)系?
DR1 系列評(píng)估板 eMMC 健康管理案例開(kāi)發(fā)手冊(cè):信息查詢(xún)與壽命監(jiān)控
守護(hù)企業(yè)“電力健康”,安科瑞電能質(zhì)量治理方案揭秘
你的開(kāi)關(guān)柜“猝死”了嗎?開(kāi)關(guān)柜健康預(yù)警與壽命診斷新革命
設(shè)備的狀態(tài)監(jiān)測(cè)可以通過(guò)哪些方式實(shí)現(xiàn)?
廣電計(jì)量攜手南山研究院打造大健康產(chǎn)業(yè)新生態(tài)
如何根據(jù)設(shè)備健康狀態(tài)數(shù)據(jù)進(jìn)行分析決策?
ArkUI-X跨平臺(tái)技術(shù)落地-華為運(yùn)動(dòng)健康(一)
繞線(xiàn)電機(jī)啟動(dòng)狀態(tài)到雙饋狀態(tài)過(guò)渡過(guò)程的研究
精準(zhǔn)監(jiān)測(cè),健康無(wú)憂(yōu)--XC3576H工控主板賦能亞健康檢測(cè)儀
淺析AI數(shù)據(jù)采集和標(biāo)注在運(yùn)動(dòng)健康領(lǐng)域的落地應(yīng)用
浪潮存儲(chǔ)基于對(duì)亞健康狀態(tài)的研究
評(píng)論