文 / 交通銀行數據中心副總經理 鄭仕輝
智能運維的主要功能
交行的智能運維包括如下功能。
1.海量運維大數據處理平臺。交行建立起基于Ha-doop/Spark架構的運維大數據處理平臺,通過Flume/Stream和Kafka將每臺服務器和設備上的日志ETL收集到運維大數據處理平臺,實現各種運維數據的集中存儲和標簽化處理。其中包括:系統監控ITM/ITCAM、網絡監控NetCool、應用監控Dynatrace、存儲監控Unisphere、服務器監控ITO,以及各種自主開發的應用監控等20多個監控系統的監控數據;各類操作系統、網絡交換機、小型機和服務器、存儲設備、應用系統的日志信息;IT服務臺的變更信息、批處理信息和生產問題的歷史記錄等。該平臺可以處理結構化和非結構化信息,每日處理的數據增量達到3.5TB,數據加載和處理時間達到秒級響應。
2.智能預警系統。在對歷史運維數據的充分挖掘和分析的基礎上,利用概率神經網絡、方差分析、時間系列分析等多種機器學習方法,自動學習每個監控指標的波動曲線,并利用清華大學裴丹教授等提出的異常檢測算法,解決了波動曲線的周期性問題,實現了波動曲線的自適應。
智能預警在監控指標出現異常的波動時就發出預警,可以在監控系統產生告警之前就發現問題的征兆,例如:可以在內存泄漏還未影響業務之前產生提示,在交易尚未堵塞之前自動報告交易響應時間的異常。智能預警可以提前發現潛在的異常信息,使得運維人員可以提前介入、及早處理,將問題消除在萌芽狀態。
3.日志異常分析。我們利用Elasticsearch等開源工具實現了對各種日志準實時集中加載和處理。同時通過統一的界面實現對多個系統日志進行關鍵字檢索、統計分析和靈活報表展現等功能。利用聚類分析和TF-IDF等機器學習技術實現對異常日志進行模式識別、智能預警和提示,輔助對生產問題進行快速定位。
4.生產問題智能定位。在運維數據分析的基礎上,我們通過等神經網絡和相關系數分析等機器學習算法,實現了各個運行指標之間的相關性分析,通過相關性分析可以發現導致影響業務的真正原因。例如:我們可以利用相關性分析,發現手機銀行的交易響應時間緩慢的原因是I/O時間的突然增長,結合日志報警的分析,可以直接定位到是磁盤前端口的板卡故障。在二期項目中,我們將進一步為每個應用系統建立一個知識圖譜,每個運行指標都是知識圖譜中的一個節點,通過知識圖譜可以發現異常指標之間的關聯,容易發現問題的根源。
智能運維帶來的效果
1.提升運維數據治理能力。運維大數據平臺將原先分散在各監控管理平臺的運維數據進行統一管理。在發生生產問題時便于進行不同維度運維數據之間的關聯分析與排查,大大提高了問題解決的效率,減少了不同運維部門之間數據分散帶來的時間成本消耗。
2.提高生產系統的可用性。通過智能預警,數據中心運維保障人員對生產系統的運維模式由被動式故障搶修轉變為主動式故障預判。對通過運維大數據平臺發現的生產異常預警指標或者系統,相關運維人員可以提前介入進行重點監控、問題定位和故障排查,主動應對可能發生的生產事件。在一定程度上減少了生產問題實際發生的數量,提高可生產系統的可用性。
3.顯著提高數據中心的應急處理水平,降低問題的定位和處理時間。通過智能輔助定位功能,可以自動發現和定位問題根源,將原來問題的定位分析時間從數十分鐘降低到數分鐘。大大提高應急處理水平。
4.顯著降低人力成本。自動化運維可以提高數據中心的工作效率,而智能運維進一步提高了生產系統的預警能力和自動化的處理能力,從而進一步降低運維成本。尤其是隨著分布式架構的推廣,智能運維將使得數據中心人均運維的服務器數量大幅提高。
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。