6月18日晚,由北京金融科技產業聯盟、移動支付網聯合舉辦的《金融科技大講堂》第六期準時開播,光大銀行信息科技部系統運維中心監控管理團隊主管吳勇從數據中心在支持業務敏捷化面臨的挑戰入手,介紹了光大銀行借助大數據、人工智能等技術在“指標異常檢測、調用鏈異常檢測、多維定位”等多個智能運維場景中的探索與實踐。
新形勢下的運維變革
近年來,以大數據、人工智能、云計算為代表的金融科技蓬勃發展。2019年下半年,央行發布《金融科技(FinTech)發展規劃(2019-2021年)》,明確指出金融科技是技術驅動的金融創新,旨在運用現代科技成果改造或創新金融產品、經營模式、業務流程等,推動金融發展提質增效。
同時,各銀行紛紛成立科技子公司,并與各互聯網巨頭成立戰略聯盟,以金融科技為戰略推進金融業務創新,同時,全面推進數字化轉型和中臺能力建設。技術發展的同時,銀行數據中心也逐步以數據和業務價值驅動,從流程化、職能化向數字化運營轉變。
AIOps(即智能運維)是Gartner在2016年提出的概念,包含三個關鍵要素:機器學習、大數據和平臺,圍繞監測、服務、自動化三大領域。初始階段聚焦在觀測領域,利用大數據與智能運維的閉環,探索智能運維落地。
隨后,吳勇介紹了光大銀行的智能運維實踐。
智能運維平臺建設
吳勇表示,光大銀行智能運維建設與業務運營敏捷化推動的數據中心運營需求變化密切相關。一方面,私有云、容器云等技術的應用,分布式應用架構、多活數據中心等技術架構的發展都是業務敏捷化的重要支撐;另一方面,業務快速投產帶來生產系統業務屬性、業務規模的變化,以及多活數據中心對網絡的要求等,都促進了智能運維的發展。
智能運維的建設是一個體系化的工程,面臨幾個較大的挑戰:
(1)在數據采集方面,數據傳輸的時效性、數據傳輸的流量問題、數據的匯聚管理等都會影響數據采集效率;
(2)在實時流數據計算方面,如何做到數據標準化、實現實時流數據的信息關聯獲取,如何完成實時流數據的入庫前預處理都面臨挑戰;
(3)在數據質量方面,元數據缺乏標準、數據缺少明確性強關聯定義都會影響數據質量;
(4)在數據展示方面,如何完成有效信息、重要信息的篩選,如何準確識別信息之間的關聯面臨挑戰。
大數據可以劃分為業務大數據和科技大數據,這兩者有著一定的區別。業務大數據主要是以大量歷史及離線數據分析為主,目標是將數據分析結果用于業務應用,提升業務能力。而科技大數據以近線數據分析為主,通過準實時數據分析,目標是將數據分析結果應用于生產運維質量的提升中,保障運維生產的正常進行。與業務大數據相比,科技大數據的標準化程度更低,應用難度也更大。
吳勇表示,科技大數據是智能運維的關鍵要素之一,我們也稱之為科技運營數據。從數據來源的角度看,科技運營數據包含配置數據、運行數據、流程數據。配置數據是生產中心基礎信息,描述生產中心的靜態關系;運行數據是配置對象在生產業務中產生的數據,是動態數據;流程數據則是對觸發配置變化的管理流程信息。
光大銀行的智能運維建設中有一個項目群支撐,包括采控平臺(解決采集方式多樣化的問題)、數據平臺(解決數據治理和存儲問題)、數據分析平臺(提供AI應用的算法服務)、展示平臺(實現數據可視化)等。
光大銀行智能運維項目群概況
在智能運維建設中也依托于數據采集、數據存儲、流式計算、算法分析、數據可視化5個方面能力建設。數據采集要能支持全行內部不同來源的數據,要能夠進行數據預處理,比如可以建立數據預關聯,從而提升后續數據標準化加工效率;數據存儲方面,要提升對實時數據存儲能力,可以通過數據分級、數據融合等方式;數據計算服務能力方面,需要加強對流式計算、算法訓練、智能算法等優化迭代;數據可視化方面,在搭建數據中心全景應用墻的同時也要注重可視化視圖設計工具建設,支撐數據共享可視化能力。
智能運維場景探索
目前,光大銀行的智能運維主要應用于故障發現及預警、定位。
智能運維場景概覽
其中,KPI異常檢測通過基線匹配完成:分析歷史數據,獲取KPI關鍵特征,根據特征進行異常判斷。
智能運維算法可以拓展至多個應用場景,包括趨勢預測(實現主要系統所部署的關鍵服務器數據存儲空間使用率、對應的關鍵業務數據庫表空間使用率的準確預測)、排障樹(實現自動化的分析定位排障)、日志異常檢測(實現日志全解析及實時異常檢測,實現日志層面的實時準確異常檢測,輔助管理員進行日志根因分析)、告警壓縮(實現海量告警進行壓縮,配合后期的告警根源定位算法,準確定位出根源告警)等。
當前的探索在算法場景中還是一套算法匹配一個場景。然而,智能運維對算法的應用不一定局限于這種應用方式,我們可以通過算法服務化,推廣算法服務能力的應用。更進一步來說,在算法之外,智能運維的服務理念或許是更根本。
討論環節
課件分享結束后,吳勇回答了觀眾提出的問題,就“中小銀行數據量不夠多,怎么做好智能運維”、“數據作為核心資產移動化是否具有風險”等問題進行了探討。
吳勇表示,對于智能運維建設來說,數據量不夠多不一定是生產運行沒有這些數據,可能的問題是沒有采集這些數據。智能運維是一種理念,不局限于海量數據。
數據作為核心資產移動化具有一定風險,尤其是生產運維數據。銀行可以從從兩個方面入手:建立移動App安全防控體系、數據脫敏展示。同時,在風險可控的前提下,可以進行數據運維移動化。
此外,吳勇還針對“光大在智能運維實踐中用到了哪些技術?!?、“多問題關聯是否只能采用故障樹”、“多系統架構下,針對具體業務數據的全鏈路監控,是否必須采用全局流水號”等問題與觀眾進行了互動解答。其它精彩內容歡迎關注直播回看:
責任編輯:陳愛
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。