文 / 中國建設銀行運營數據中心副主任 王立新
建行數據中心經過近兩年的探索與實踐,初步搭建了以配置管理及大數據平臺為基礎的智能運維框架,并在系統畫像、應用及交易監控、事件智能分析及處置等應用場景方面彰顯成效。
智能運維框架
1.智能運維應用場景設計。對運維場景進行了梳理及分類,不同場景采取不同策略。簡單、低頻的場景如服務流程、備份管理,采用規范化和流程化;簡單、高頻的場景如健康巡檢、自動化變更,采用自動化和自助化的策略。
2.運維數據建模。以“云計算”為基礎,依托于運維大數據的數據存儲、價值提煉、智能處理和展示,形成了企業級的運維工作數據視圖,規范數據標準,對運維數據進行統一管控。目前數據模型正在支撐成本管理、全渠道監控、運維可視化等多個需求場景的數據分析工作。
3.智能運維PaaS平臺。分層構建智能運維PAAS平臺。數據采集層屬于感知范疇,多種方式對管理對象的指標進行采集與存儲;平臺服務層即機器學習算法層,基于算法實現對外提供服務,包括傳統機器學習算法和深度學習算法;智能應用層按照業務邏輯實現智能應用,可以是最終功能,也可以為其他業務功能提供服務完成新的業務實現。
4.配置管理及運維大數據平臺。統一的配置管理具備全面自動化采集的數據生產能力和多場景應用的數據消費能力。建立數據采集通道,實現數據采集、清洗和存儲,具備結構化數據和文件數據的分布式存儲能力;建立數據消費通道,滿足場景化數據建模和數據消費需求,為數據應用場景提供基礎數據服務。運維大數據平臺優化采集框架,建立多通道采集方式,分類管理。建立了基于流式計算的秒級交易監控平臺,為智能運維提供數據基礎。
智能運維的探索及實踐
1.系統畫像。通過長期配置數據、短期相關操作、系統行為模式和健康度評估四個緯度來描述一個系統,以性能數據、容量數據、狀態數據、配置數據等為基礎,構建兩層畫像:拓撲形式的靜態畫像和基于運行模式的動態畫像。系統畫像在應急中可以直觀反映問題在節點間傳遞路徑,還可以反映關系鏈上發生的事件,將關聯分析具象化,配合使用系統畫像提供的差異分析與一鍵式健康檢查功能可以起到故障快速定位的效果。
2.應用及交易監控。秒級交易監控提供企業級端到端的交易監控能力,涵蓋可用性、性能、容量三大類指標,13個統計維度;可視化數據分析自由定義分析儀表盤,支持性能容量分析、日志分析等功能;應用狀態監控滿足應用級、業務級的個性化監控需求;數據聚合運算進行實時、準實時建模;動態基線根據監控指標歷史樣本,自動計算告警閾值。
3.事件智能分析及處置。告警收斂:告警基于規則聚合后發送、基于時間與因果關系進行告警收斂,壓縮可達100:1,提高了告警效率和準確性。關聯分析:基于配置關系、規則、基于因果關系的關聯影響分析;基于時間的關聯分析、基于購物籃算法將事件關聯推送。事件處置:主要按照人工介入的程度可劃分為處置建議推送、半自動化處置、自動化處置三個類型。2017年我行共進行自動化處置39000千余次,包括收集、檢查、處理三大類操作。智能基線:基于歷史樣本自動計算告警閾值、基于正態分布假設的概率算法。
4.交易路徑分析。依托運維大數據平臺,自動計算交易路徑拓撲,為后續的交易質量分析、架構管控提供運行態的數據服務。
5.健康度評估。通過檢查腳本和AI算法等手段,對系統的運行狀態、合規、風險、安全等方面進行檢查。通過規則和算法對健康度進行評測,根據評測結果確定系統的健康程度,利用知識圖譜、知識庫和規則,對系統提出健康改正建議,持續改進運行狀態。
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。