川慶物探數據機房運維:實現資源統一、自動化調度管理

經過快速穩定的發展,川慶物探IT規模逐漸擴大,IT基礎架構建設趨於完備。雲計算時代,川慶物探著眼於業務擴展的需要,引入雲資源,加快了川慶物探信息化建設的步伐。但是,川慶物探原有的IT運維並不完善,IT運維服務模式的改革創新勢在必行。

目前川慶物探共有3個數據中心機房:2個在成都,1個在新疆庫爾勒。其中庫爾勒為移動式機房,成都1樓機房主要為利舊將下線的老設備,2樓機房為承載川慶物探重要業務應用的集群化服務器和存儲資源。

目前針對機房及設備間的管理都比較完善,服務器和存儲設備資源均已池化,但隨著支撐業務應用的逐漸增多,資源的合理利用是一個較大問題。

行業特性

對石油勘探行業而言,IT資源除了存儲海量數據的設備外,最關鍵的就是計算資源。石油勘探行業采集的地質數據數量龐大,而且需要經由地震資料處理類軟件和地震資料解釋類軟件複雜的運算才能完成數據分析工作,這兩類軟件分別用於地震數據的處理和地震數據的解釋,其所需要的運算量相當龐大。

采集上來的原始數據經過地震資料處理類軟件或解釋類軟件的複雜運算,再通過矩陣的變化,迭代後會產生更龐大的數據量。最後,輸出原始數據處理結果時,又需要進行大量計算,最後變成與原始數據體量規模相似的數據。

項目背景

2016年底,勤智運維與川慶物探研究中心合作,搭建一體化智能運維平台承擔整個研究中心的運維支撐工作。川慶物探研究中心通過部署勤智 OneCenter一體化運維管理平台,對川慶成都數據中心機房的核心網絡設備、計算和存儲集群資源進行了全麵監控;通過網絡拓撲圖、設備性能視圖、設備告警視圖、自動化運維及定製化功能,直觀了解網絡設備、技術、存儲集群資源的使用情況,並能及時發現設備故障;通過自動化資源調度合理分配、計算、存儲資源,由被動運維變為主動運維。

現狀描述及需求分析

3.1 現狀描述

類似川慶物探研究中心計算所這樣的科研機構,承載地學研究、勘探數據分析等任務的石油勘探行業的研究所或計算中心,都麵臨著同樣的信息化運維難題。隨著數據規模不斷增長,計算壓力逐漸變大,計算所的規模也在擴大。川慶物探現有3個數據中心,2個在成都,1個在新疆。各數據中心隻能負責各自的數據,數據中心之間的遠程監控還未實現。

為了保障勘探項目的順利進行,為各項目組提供服務,川慶物探研究中心計算所投資建設的高性能計算平台有2000多個計算節點,近40000個CPU,每個CPU的核數超過了10000。硬件上的投入看似足夠,但當項目繁忙需要很多應用軟件同時在高性能計算平台上運行時,係統的穩定性就會出現問題。川慶物探急需一套專業的一體化運維平台,實現網絡、計算、存儲資源監控、遠程、自動化的調度管理,讓投資的硬件、軟件資源的利用率更高,為業務順利開展提供服務保障。

3.2 需求分析

隨著川慶物探投資建設的高性能計算平台上線運行,各核心網絡設備運行基本暢通,計算存儲資源在實際項目中的合理高效利用成為關注的焦點。為此川慶物探從實際業務出發提出了如下要求:

1) 實現對核心網絡設備全麵監控,並可在拓撲視圖中直觀顯示網絡架構、設備的運行狀態和網絡鏈路的性能和通斷情況。

2) 實現對計算及存儲集群資源監控,並通過統計視圖展現集群資源CPU、內存使用情況。

3) 實現磁盤陣列各文件係統的信息采集,並以圖表方式展現。

4) 實現以矩陣方式展現各計算集群節點運行應用分布情況,不同應用以不同顏色區分。

5) 實現計算集群資源通過自動化執行腳本方式自動調度分配。

解決方案

經過前期需求調研,考慮到需監控管理的計算節點超過1000個,勤智運維決定采用分布式部署方式,數據處理器單獨部署一台服務器,兩個數據采集器、集中門戶等組件單獨部署一台服務器,數據庫采用Oracle 11g單獨部署一台服務器。

 

1)通過網絡拓撲視圖展示,自動發現生成網絡拓撲,並且關聯設備的性能和告警信息,便於進行故障隔離和快速定位。

拓撲圖展示.png


2)通過勤智OneCenter一體化智能運維平台實現對網絡、計算、存儲集群資源全麵監控,實時展現各資源的CPU、內存、磁盤、接口等性能指標信息。

網絡設備.png

 

計算集群節點.png

存儲集群節點.png

 

將業務資源分組,以統計視圖方式集中展現各計算、存儲集群資源CPU、內存使用情況。

計算集群資源使用統計視圖.png

計算集群各節點CPU利用率.png

計算集群各節點內存利用率.png

 

3)磁盤陣列使用情況統計:通過定時代理方式,在指定存儲節點上執行腳本命令采集獲取磁盤陣列文件係統目錄使用情況,並以圖表方式進行集中展現。

存儲文件係統一級目錄.png

圖片9.png

 

4)項目應用矩陣視圖展現:按照川慶物探的業務,每個計算集群節點上均會部署運行一個項目應用,例如:Omega、Paradigm等。計算集群節點為Linux係統,勤智OneCenter一體化智能運維平台按照Linux對各節點進行監控,並將川慶物探的項目應用名稱同Linux操作係統的“係統說明”字段進行綁定,綁定策略可在後台配置文件中進行維護。

以矩陣方式集中展現a段、b段、c段等計算集群節點上運行應用情況。

矩陣視圖展示.png

 

5)自動化資源調度:通過對計算集群資源的全麵監控,及時掌控各集群節點的使用情況,結合資源調度功能實現自動化在線分配節點資源(釋放空閑節點的資源到業務緊張的節點中)。

資源調度.png

收益

勤智OneCenter一體化智能運維平台,能夠幫助川慶物探用戶找到問題出現的根源,比如哪些資源已經超負荷,哪些資源處於閑置狀態,並通過在線資源調度合理分配超負荷資源和閑置資源,使其得到高效利用。川慶物探能夠實時掌控計算平台上的應用運行情況,預知分配給應用的計算節點何時達到峰值。如果當前CPU利用率較低,就可以加載將要運行軟件,提高平台處理效率。

 

川慶物探反饋引入勤智OneCenter一體化智能運維平台後,業務能夠更好地順利開展,所有可監控的業務都做到了提前報警,計算集群節點使用狀況實時可控,實現了資源的統一、自動化管理,投資的硬件資源利用率更高。

案例亮點

本項目一期建設亮點如下:

1) 實現對川慶物探核心網絡設備、計算和存儲集群資源全麵監控,結合ITAM平台實現自動調用腳本實現計算集群資源的在線調度。

2) 通過定製化需求對計算集群節點CPU、內存性能指標進行集中展現;以矩陣方式展現各計算集群節點運行業務應用情況

3) 通過定時代理方式在指定存儲節點上執行腳本命令,獲取磁盤陣列文件係統目錄使用情況,並以圖表方式進行集中展現。