西部證券一體化運維實現自動巡檢和日誌監控

西部證券股份有限公司涉及全國100多家分支機構,網絡規模龐大。日常的證券交易都在交易網上進行,保證網絡穩定、安全、可靠是該公司IT部門日常的核心工作。信息技術部網絡維護團隊負責西部證券股份有限公司總部數據中心整個網絡運維工作,包含日常網絡故障處理、設備故障處理、設備日常巡檢,設備定時備份,設備維護等。信息技術部網絡維護團隊不僅要保障數據中心網絡通暢,及時解決問題故障,同時還要負責日常辦公網及外聯區網絡的正常運轉。

 

行業特性

作為券商,西部證券在全國各地都有分支機構,總部與分支機構之間,分支機構與分支機構之間都有網絡數據交互,因此必須確保網絡通暢,才能保障各種業務交易正常進行。辦公網、交易網和外聯網,共同構成了一個龐大複雜的網絡,維護難度很大。

項目背景

隨著西部證券股份有限公司的信息化建設規模不斷擴大,其業務迅猛發展, IT業務應用也不斷增多。IT網絡環境複雜化使網絡維護難度成幾何倍數增長,IT信息科技方麵的風險及隱患也在不斷的加大,如何保證整個IT係統穩定安全的運行,也逐漸成為西部證券股份有限公司的管理層和工程師日益關注的問題。

在過去的IT運維管理中,由於沒有一套先進的IT運維監控管理係統,使得西部證券股份有限公司對業務係統的運維管理比較被動且滯後。當係統出現嚴重故障時才能發現該異常,導致故障處理速度較慢,有時甚至會影響業務係統的正常運行,所以及時準確的了解設備性能資源利用率、業務係統運行瓶頸等指標對於信息化建設有不可或缺的參考價值

綜上所述,西部證券對信息中心各項運維工作提出了更高的要求係統管理人員的工作壓力越來越大。因此,對於西部證券股份有限公司,建設一套功能先進、安全可靠的IT監控係統勢在必行。


現狀描述及需求分析

通過對西部證券股份有限公司的信息化建設和運維管理現狀進行調研和深入分析後,了解到目前的IT運維現狀:

IT應用不斷擴大,越來越多的應用和業務在網絡上運行,對網絡的依賴越來越大,缺少一套針對IT網絡全麵統一監控係統,無法及時了解IT網絡的運行趨勢,故障處理效率低。

核心網絡設備重要配置文件缺乏自動備份機製,單純的人工備份操作費時費力已經無法滿足並支撐現有的運維要求。

重要設備syslog日誌缺少有效的采集手段,當設備出現故障後無法追溯故障源頭,缺少故障定位的信息來源。

鏈路故障缺少主動的監控手段,當出現故障以後隻有被動相應,急需有效的監控工具來實現鏈路監控故障告警。

缺少流量分析工具,無法對流量進行詳細分析,無法具體分析網絡上最忙的設備/端口、設備的利用率如何、哪些設備基本閑置等,對後期的網絡規劃沒有有效的數據支撐。

缺乏能夠真實反映網絡設備和設備運行情況與運行質量的統計分析報表,無法為決策層提供數據依據;日常設備人工巡檢,人工生產巡檢報告,占用大量的人力缺乏自動巡檢機製。


需求分析

西部證券運維服務需要改變傳統的運維管理模式,變被動式為主動式運維,切實達到7*24小時不間斷運維,保障證卷交易日常的業務網絡正常運轉的同時減少網絡運維人員的壓力。因此西部證券股份有限公司信息中心運維服務管理平台的具體要求如下:

建設全麵的網絡監控

對西部證券交易網、辦公網、外聯網絡中所有的設備,包括路由器、交換機、防火牆以及其他安全設備的全麵統一監控,故障告警、主動預警。

syslog日誌監控自動采集故障告警

能夠對核心設備的Syslog日誌進行收集,關鍵報錯告警。

重要設備自動備份

對重要設備配置文件如Config、Startup等進行定製備份。

設備自動巡檢

滿足西部證券日常設備巡檢的需求,能夠定時獲取網絡設備Cpu、內存、相應時間(延時)等數據,並生成相應報表,支持報表導出。

流量監控需求

對各種主流的流量設備進行自動發現和流量分析功能

對運營商鏈路監控

對運營商端對端鏈路監控,監控鏈路的可用性,能及時發現鏈路故障。


解決方案

針對網絡、流量以及核心設備Syslog監控等需求,西部證券股份有限公司提引進勤智ITM基礎監控、Netqt(流量分析模塊)兩個模塊,分別部署在Windows和Linux係統上。考慮到對個別監控指標如鏈路監控(Remoteping)監控頻度高的要求,係統采集器采用了分布式部署的方式,從而提升係統的負載能力與擴展能力。

配置備份管理.png

配置備份管理

配置變更提醒.png

配置變更提醒

鏈路監控.png

鏈路監控

 

設備運行負載.png

設備運行負載

流量分析監控.png

流量分析監控


方案收益

 通過集中監控係統的部署,實現對西部證券數據中心,交易網、辦公網、外聯網等網絡中的設備監控。目前,共監控網絡設備400餘台,運營商鏈路15條、核心設備Syslog日誌監控34台,重要設備配置文件備份144台。

通過對設備各類數據的統一采集、分析、處理,實現了西部證券IT基礎s設施網絡的全麵監控、主動預警。同時,通過係統自帶的報表工具與指標巡檢功能,實現了數據中心設備自動巡檢,大大減輕了運維人員日常工作量。

通過監控係統的部署,實現了西部證券網絡監控自動化,故障發現更加及時,運維不再被動。現在沒有監控係統就像盲人看不見路,運維無從下手。配置備份功能、報表統計,以及指標巡檢等功能,大大減輕了西部證券IT運維人員的工作量,很大程度上緩解了運維工作壓力。


案例亮點

1、對於不同型號的設備編寫了不同的配置備份腳本。

2、通過Remoteping實現對運營商鏈路的監控。