“亞健康”這個詞不僅在生活中被熟知,而且大家經常使用的信息系統(tǒng)中也會經常遇到;亞健康狀態(tài),顧名思義,是存儲系統(tǒng)介于健康狀態(tài)和故障狀態(tài)之間的一種狀態(tài),系統(tǒng)仍在運行且功能正常但處于降級模式的一種情況,它的存在會造成系統(tǒng)性能嚴重低于預期。
浪潮存儲基于對亞健康狀態(tài)的研究,在分布式存儲平臺進行技術創(chuàng)新,研發(fā)了亞健康狀態(tài)監(jiān)控功能,對硬件、系統(tǒng)、網絡等進行實時監(jiān)測,當系統(tǒng)發(fā)現(xiàn)運行過程中存在亞健康狀態(tài)時,可快速定位原因、上報、并對處于亞健康的部件進行必要的處理,降低亞健康狀態(tài)對存儲系統(tǒng)的影響,保障用戶數(shù)據(jù)服務的可靠、高效。
過去因大部分應用系統(tǒng)規(guī)模較小,一般會將亞健康狀態(tài)劃歸到故障進行處理,系統(tǒng)在這種情況下雖處于亞健康狀態(tài),但仍可以對外提供服務,處于亞健康的部件卻被當成故障處理擴大了亞健康狀態(tài)的影響范圍,有時甚至會導致系統(tǒng)不可提供服務,也造成了資源浪費。近十年,隨著新技術的快速發(fā)展,以及分布式系統(tǒng)部署規(guī)模的增加,亞健康狀態(tài)對于存儲系統(tǒng)的破壞已經越來越顯著,之前亞健康狀態(tài)處理方式已經不適合現(xiàn)在的大規(guī)模系統(tǒng)。亟待更加智能、高效的機制來保障存儲系統(tǒng)健康運行。
亞健康狀態(tài)是隱形的系統(tǒng)殺手
以網絡亞健康為例,網卡故障、驅動程序故障、設備故障、接線松動、溫度過高過低等都可能引起網絡亞健康狀態(tài),盡管產生網絡亞健康狀態(tài)的原因眾多,但其對外表現(xiàn)的現(xiàn)象相對簡單,主要是網絡時延的增加和網絡丟包率的增加。如下為網絡丟包率和時延對分布式存儲系統(tǒng)性能的影響。
在一個分布式存儲系統(tǒng)中,單個節(jié)點網絡丟包率或網絡時延增加時,存儲系統(tǒng)的性能會極快速的下降,5%的丟包率或50ms時延,就足以使存儲系統(tǒng)性能下降一半左右。
從網絡亞健康實例中可以看出,亞健康狀態(tài)對系統(tǒng)的危害,微小的一個亞健康狀態(tài),對系統(tǒng)性能的影響都是巨大的。此外CPU、內存、硬盤模塊、網卡等硬件部件、操作系統(tǒng)以及軟件運行均有可能進入亞健康狀態(tài)。
浪潮存儲基于大量來自企業(yè)、大學、實驗室等案例的亞健康狀態(tài)的研究,進行了故障分類和根因分析,可以看出,硬件亞健康狀態(tài)占比33%,網絡亞健康狀態(tài)占比38%,這兩類故障占比超過整體的70%。
亞健康狀態(tài)監(jiān)控
讓分布式存儲運行更穩(wěn)定
基于對亞健康狀態(tài)的表象根因等分析與研究,浪潮在分布式存儲上實現(xiàn)了亞健康狀態(tài)監(jiān)控功能,對硬件亞健康狀態(tài)、系統(tǒng)亞健康狀態(tài)以及網絡亞健康狀態(tài)的實時監(jiān)控,當系統(tǒng)發(fā)現(xiàn)運行過程中存在亞健康狀態(tài)時,可快速定位亞健康狀態(tài)的原因、上報故障、并對亞健康的部件進行必要的處理(如嘗試恢復、隔離部件等),最大限度的降低亞健康狀態(tài)對存儲系統(tǒng)的影響。
浪潮分布式存儲AS13000配置了亞健康狀態(tài)監(jiān)控之后可以進行亞健康狀態(tài)監(jiān)控告警服務的同時還具有如下優(yōu)勢:
01精準定位
亞健康狀態(tài)的場景復雜,癥狀、根因眾多,檢測難度大。亞健康狀態(tài)監(jiān)控系統(tǒng)通過建立硬件亞健康檢測、網絡亞健康檢測以及系統(tǒng)亞健康檢測的機制,有效的覆蓋了亞健康狀態(tài)的各種檢測場景,再加上檢測信息的精準分析,能更精準的定位亞健康狀態(tài)。
02快速處理
存儲系統(tǒng)長期以亞健康狀態(tài)的狀態(tài)運行,會影響整體性能,監(jiān)控功能可以在短期內發(fā)現(xiàn)亞健康狀態(tài),并及時做出必要的處理。以往為了確保系統(tǒng)運行的穩(wěn)定性,運維人員預計需要每周執(zhí)行一次巡檢腳本,對整個集群進行健康巡檢。這種方式一方面時效性差,平均3-4天才可以發(fā)現(xiàn)問題;另一方面是巡檢腳本檢測并不全面。亞健康狀態(tài)監(jiān)控可以150秒內發(fā)現(xiàn)網絡亞健康狀態(tài)并進行網口隔離處理、30分鐘內發(fā)現(xiàn)系統(tǒng)亞健康狀態(tài)并告警、60分鐘內發(fā)現(xiàn)磁盤溫度異常并告警等;平均發(fā)現(xiàn)系統(tǒng)亞健康狀態(tài)并處理的時間縮短了四分之三,并且檢測的項目更全面、結果更準確。
具備亞健康狀態(tài)監(jiān)控功能的分布式存儲AS13000,已經在金融、通信、教科研、醫(yī)療等行業(yè)規(guī)模部署,在運行過程中亞健康狀態(tài)監(jiān)控功能快速響應機制,降低了亞健康狀態(tài)對存儲系統(tǒng)的影響與運維成本,保障了客戶業(yè)務,讓企業(yè)輕松應對數(shù)字經濟時代的海量數(shù)據(jù)挑戰(zhàn)。
-
浪潮
+關注
關注
1文章
476瀏覽量
25418 -
存儲系統(tǒng)
+關注
關注
2文章
433瀏覽量
41894 -
數(shù)據(jù)服務
+關注
關注
0文章
43瀏覽量
10232
發(fā)布評論請先 登錄
如何打破“亞健康”的電源供應鏈關系?
宏景智駕成為四省邊際交易數(shù)據(jù)中心首位數(shù)據(jù)服務商
CW32F030片上FLASH閃存存儲器物理區(qū)域的劃分
針對CW32芯片內部flash能存用戶數(shù)據(jù)嗎?
AI 服務器備用電源:高效、可靠與智能的未來保障
提升AI數(shù)據(jù)服務器存儲性能:永銘電容器如何保障讀寫速度與數(shù)據(jù)完整性
如何在下載程序時保護flash中的用戶數(shù)據(jù)不被覆蓋?
電商API安全最佳實踐:保護用戶數(shù)據(jù)免受攻擊
精準監(jiān)測,健康無憂--XC3576H工控主板賦能亞健康檢測儀
STM32與CSNP32GCR01-BOW在按摩儀器中的協(xié)同應用解決方案
使用Prometheus與Grafana實現(xiàn)MindIE服務可視化監(jiān)控功能
浪潮存儲亞健康狀態(tài)監(jiān)控功能保障用戶數(shù)據(jù)服務的可靠、高效
評論