一、項目背景
隨著機房設備的逐步增多,該產(chǎn)業(yè)園的運維管理工作產(chǎn)生了較大壓力,無法及時得知園區(qū)所屬設備的運行狀態(tài),沒有一套統(tǒng)一的運維監(jiān)控平臺,直接導致了:
1、IT運維部門不能提前預知故障隱患,提前排除可能發(fā)生故障的隱患;
2、當故障發(fā)生時,IT人員不能第一時間發(fā)現(xiàn)故障;
3、IT人員分析處理故障,沒有一個從IT基礎架構到業(yè)務可用性的全棧監(jiān)控工具,靠人工逐層分析,效率低下;
4、排查故障之后,下次再出現(xiàn)類似的故障時,沒有有效的、可持續(xù)消費的知識記錄。
綜上,為了解決業(yè)務支撐系統(tǒng)全方位的保障,建設一套統(tǒng)一、開放、自主、可持續(xù)發(fā)展全鏈路運維監(jiān)控平臺已成為必要。
圖1:智慧園區(qū)大廳
二、解決方案
為完善該產(chǎn)業(yè)園信息化系統(tǒng),向運維人員提供有效幫助,更高效率開展運維工作。在現(xiàn)有信息化相關維護前提下,有必要建立一套針對信息化的監(jiān)控平臺,做到及早發(fā)現(xiàn)故障、提早判斷預知故障并及時處理,以及合理利用信息化基礎資源,達到最大化資源使用,同時為信息化建設提供未來建設提供合理依據(jù),使得信息化建設健康發(fā)展。
結(jié)合該產(chǎn)業(yè)園現(xiàn)有信息化建設架構,建設統(tǒng)一監(jiān)控平臺部署內(nèi)容如下:
1. 集中監(jiān)控:包括從IT基礎架構到業(yè)務系統(tǒng)的可用性、性能、日志等指標監(jiān)控;
2. 集中告警:集中告警展示、告警分發(fā)、告警處理等全生命周期管理;
3. 可視化視圖:可自動發(fā)現(xiàn)的網(wǎng)絡拓撲、投屏視圖等可視化功能;
4. 多樣性報表:支持自定義、多維度、多指標報表統(tǒng)計功能;
5. 大屏展示:大屏幕集中監(jiān)控實現(xiàn)自定義展示頁面。

圖2:園區(qū)監(jiān)控中心
三、實施過程
該項目主要監(jiān)控網(wǎng)絡設備,基于網(wǎng)絡拓撲圖實現(xiàn)核心鏈路的集中監(jiān)控。
1、監(jiān)控對象搜集
前期監(jiān)控對象搜集,通過和客戶交流、溝通,搜集相關需求及本次需要納入監(jiān)控的相關對象。
主機系統(tǒng):IP地址,系統(tǒng)類型、業(yè)務名稱等。
網(wǎng)絡設備:設備名稱、設備類型、設備團體名、管理IP。
2、制定實施計劃
完成相關對象搜集后,結(jié)合本次監(jiān)控對象的數(shù)量、類型、監(jiān)控頻度,綜合判定本次架構設計,制定詳細實施計劃。
底層架構設計
該產(chǎn)業(yè)園本次監(jiān)控對象為網(wǎng)絡設備30臺。本次系統(tǒng)架構說明:本次監(jiān)控通過虛擬化平臺進行監(jiān)控系統(tǒng)部署,基于虛擬化平臺的故障遷移策略保障監(jiān)控系統(tǒng)的可用性,部署在一臺服務器上,采用單機部署,主要進行交換機設備監(jiān)控并實現(xiàn)所需監(jiān)控告警及大屏展示功能。
3、監(jiān)控對象管理
完成監(jiān)控系統(tǒng)部署后,根據(jù)搜集表進行分批次添加監(jiān)控對象。
①操作系統(tǒng):結(jié)合現(xiàn)場部署環(huán)境、調(diào)整好安裝腳本,配置好serverIP地址。
②網(wǎng)絡設備:根據(jù)搜集的產(chǎn)業(yè)園網(wǎng)絡設備信息發(fā)現(xiàn)其主要為華為交換機設備,與現(xiàn)有監(jiān)控模匹配后,結(jié)合前期信息搜集時的管理IP地址、團體名,實現(xiàn)快速添加監(jiān)控對象。
③告警配置:完成監(jiān)控對象納管后,通過和客戶溝通、培訓,進一步確認相關監(jiān)控閾值配置,即根據(jù)客戶實際情況配置告警閾值,當監(jiān)控指標達到閾值設置后,即觸發(fā)告警。同時將不同閾值對應到不同告警級別,分別為嚴重、一般、次要這幾個常用級別。
④大屏配置:投屏展示通常可直觀、簡潔地查看整個IT資源或某個業(yè)務的實際情況,經(jīng)過和客戶交流溝通后,確定本次創(chuàng)建的投屏展示。

圖3:園區(qū)車間大屏
四、方案價值
1、統(tǒng)一監(jiān)控
實現(xiàn)信息化基礎資源全覆蓋監(jiān)控,保障了監(jiān)控自動化管理,通過設置配置即可達到相關調(diào)整。降低人工成本,使運維人員去做對業(yè)務更有價值的工作。
2、告警管理
運維人員可查看最近6小時、最近12小時及最近24小時告警,可了解整個資源運行狀況,避免信息化資源出現(xiàn)告警隱患而人員未關注到時告警遺漏,更加準確的反饋了整體健康狀況,分別從不同等級、告警事件、告警時長直觀的呈現(xiàn),讓運維人員心中有數(shù)。 集中告警功能包含了實時告警、全部告警、告警統(tǒng)計等多個維度,匹配運維人員使用習慣,做到告警無遺漏、告警分等級,告警可追溯。從整體上減輕了運維人員工作,且真正做到7* 24小時實時監(jiān)控,為運維管理工作代理了直觀的價值。
3、可視化管理
運維管理通常需要直觀呈現(xiàn),重點關注的對象,通過配置網(wǎng)絡拓撲、業(yè)務拓撲,并通過投屏配置方式呈現(xiàn),及時反映重點關注的如網(wǎng)絡健康狀況、專線鏈路狀況等。當出現(xiàn)異常時,可快速定位故障,大大縮短故障定位、排查時間,為解決故障提供了有效依據(jù),將前端業(yè)務影響降至最低,為整個運維工作帶來了最大的便利。
4、報表管理
運維工作除了對日常信息化健康運行關注外,還需要對整體資源使用情況做到合理分配,當資源需要進行調(diào)整時,可有效進行整改、達到資源最大化利用率。也可為單個業(yè)務系統(tǒng)創(chuàng)建報表,提供日報、周報,展現(xiàn)趨勢數(shù)據(jù)提供性能分析。 另外,對于整個信息化基礎架構運行狀況,也可通過報表的告警統(tǒng)計,不同維度查看告警統(tǒng)計,操作系統(tǒng)告警統(tǒng)計、網(wǎng)絡設備告警統(tǒng)計,以不同類別、不同等級分別展示,為信息化建設可持續(xù)發(fā)展提供了有效幫助。

圖4:手機運維軟件
運維管理平臺的利用云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、可視化等技術手段,實現(xiàn)了對園區(qū)設施設備的智能化管理和優(yōu)化運維,提高了園區(qū)運維管理的效率和質(zhì)量,降低了設備故障率和維修成本,優(yōu)化了能源利用效率,并提升了園區(qū)的安全性。
審核編輯 黃宇
-
IT
+關注
關注
2文章
1003瀏覽量
65753 -
智慧園區(qū)
+關注
關注
5文章
505瀏覽量
9729
發(fā)布評論請先 登錄
能碳管理平臺:園區(qū)綠色轉(zhuǎn)型的“智慧中樞”
光伏電站運維管理系統(tǒng)這種運維管理模式的應用
智慧城市衛(wèi)星桿遠程監(jiān)控運維管理系統(tǒng)方案
灌區(qū)泵站閘門智慧運維管理平臺系統(tǒng)方案
園區(qū)微電網(wǎng)智慧能源管理:邁向綠色高效的未來
智慧管網(wǎng)系統(tǒng):管網(wǎng)運維的智能革命
智能運維管理平臺智慧園區(qū)應用案例
評論