<listing id="lnlbz"></listing>

      <address id="lnlbz"></address>
      <form id="lnlbz"><th id="lnlbz"><listing id="lnlbz"></listing></th></form>

          <form id="lnlbz"></form>

          <progress id="lnlbz"><nobr id="lnlbz"></nobr></progress>

          <address id="lnlbz"><sub id="lnlbz"><menuitem id="lnlbz"></menuitem></sub></address><listing id="lnlbz"><font id="lnlbz"><cite id="lnlbz"></cite></font></listing><thead id="lnlbz"></thead><rp id="lnlbz"></rp>

          1. 移動端
            訪問手機端
            官微
            訪問官微

            搜索
            取消
            溫馨提示:
            敬愛的用戶,您的瀏覽器版本過低,會導致頁面瀏覽異常,建議您升級瀏覽器版本或更換其他瀏覽器打開。

            工行軟件開發中心監控運維火警圖建設實踐

            中國工商銀行金融科技研究院云計算實驗室 來源:移動支付網 2025-07-07 16:06:43 監控 火警 銀行動態
            中國工商銀行金融科技研究院云計算實驗室     來源:移動支付網     2025-07-07 16:06:43

            核心提示在數字化轉型浪潮中,系統穩定性是金融業務的“生命線”。

            數字化轉型浪潮中,系統穩定性是金融業務的“生命線”。中國工商銀行軟件開發中心(以下簡稱“工行軟件開發中心”)聚焦“1分鐘發現、5分鐘定位、10分鐘恢復”的智能運維目標,通過深度剖析典型生產故障案例,依托“云+分布式”技術底座,深度整合云端監控與分布式追蹤技術,首次基于統一元數據實現分布式到基礎設施的打通,創新性地提出并實現了一款滿足高敏業務場景1-5-10故障處理時效性要求的一站式運維大屏——火警圖,支持故障可視化、分析智能化、應急一鍵化。在此基礎上,為進一步歸攏各應用火警圖,形成全行級的監控分析能力,融合資源、業務、技術等多維指標,工行軟件開發中心打造了全域時空火警圖,通過一張圖實時展現全行關鍵業務的運行情況,滿足業務、資源、關基等不同視角的監控需求,為工商銀行的生產運行安全提供了堅實保障。

            一、打通“云+分布式”監控體系,建設火警圖

            工行軟件開發中心參考業界云原生可觀測性的指標(Metrics)、日志(Logs)和鏈路(Traces)三大核心觀測指標(Primary Signals),已建設故障診斷處理(云醫)、日志中心和全息監控等運維平臺,初步建成云上可觀測體系,構建了覆蓋預防性檢測、實時觀測與智能分析、自動化巡檢與根因治理的運維保障機制,為應用安全穩定運行提供了有效支撐。其中,依托全息監控和應用畫像可觀測技術架構,已初步具備基于橫向調用拓撲及交易指標的監控告警、分析定位、應急處置等功能,可覆蓋應用大部分觀測場景需求;基于云醫平臺建設了縱向資源穿透式監控體系,實現了多層次云平臺資源監控與分析,引入知識圖譜,提升了關聯分析能力,并聯動事件、快照、診斷與應急中心,實現了故障管理的全流程閉環。

            圖1 基礎架構

            然而隨著行內對生產故障的應急響應能力要求的不斷提高,為解決應用故障處理時效長、成本高等痛點,工行軟件開發中心基于各技術平臺現有監控運維體系,充分挖掘各平臺監控優勢,提出“火警圖”的概念,旨在幫助應用提高故障處理時效性。

            火警圖圍繞“可視化、智能化、一鍵化”的設計理念,提供業務指標、技術指標、部署拓撲、上下游依賴、中間件等多維度一站式監控,支持在線診斷和一鍵應急能力,有效提升應用故障定位和處置時效,全面保障生產業務平穩運行(如圖1所示)。

            (一)整合部署架構、系統資源、服務調用監控于一體,實現故障快速識別及可視化呈現

            目前已有的監控產品往往需要多個監控頁面甚至多個監控系統組合才能準確定位問題,存在處理時效性低、對運維人員要求高、使用門檻較高等不足。

            為解決上述痛點,火警圖打破現有監控系統設計思路局限性,充分利用現有各監控系統優勢,從應用部署架構、資源監控再到節點運行監控,整合業務、服務、系統資源等各個維度的監控數據,重新布局設計,直觀展現物理部署、資源運行、交易運行監控數據。

            當系統監測到異常事件時,基于運行態的多維聚合計算實現容器可視化色彩動態渲染,輔助運維人員直觀辨識故障影響邊界并精準定位異常節點(如圖2所示)。

            圖2 火警圖拓撲

            (二)強化故障診斷機制,充分發揮“云+分布式”監控優勢,建成智能化分析能力

            通過構建服務性能、容器狀態、業務健康度三位一體的監控指標體系,創新提出服務與容器監控聯動、云原生與分布式能力協同的整合式方案,打造智能化根因分析能力:引入故障診斷機制,通過一鍵觸發預定義通用及業務場景化檢查規則,提高定位準確度和時效性;基于動態獲取應用服務器元數據,實現上下游網絡連接探測,覆蓋網絡故障場景;通過服務注冊信息和監控指標明細橫向比對,構建節點級服務可用性監控,篩選出可疑容器節點,提高故障檢出率(如圖3所示)。

            圖3 診斷

            (三)建成一站式應急維護能力,推動“隔離”“擴容”“切園區”新三板斧落地

            火警圖配套建設了“隔離”“擴容”“切園區”新三板斧應急能力。例如,單點故障采取隔離策略,交易量驟增導致性能容量告警采取擴容處置,園區級故障采取切園區處置,一鍵實現90%故障的快速處置。

            二、借鑒“類地圖”交互模式,建設全域時空火警圖

            作為火警圖的突破性升級方案,全域時空火警圖采用三維地理信息可視化技術,通過實時聚合技術、業務和基礎設施指標,直觀呈現附帶分析結論的業務交易運行情況和基礎設施健康狀態,快速辨別故障類型是全局還是局部,故障原因是業務還是基礎設施。通過“類地圖”的交互模式,火警圖支持從園區級業務概覽逐層下鉆至容器粒度,結合應用調用鏈實現跨層關聯分析應急(如圖4所示)。

            圖4 全域時空火警圖

            (一)探索“類地圖”模式逐層穿透分析,全面提升用戶使用體驗

            為進一步提升故障分析時效,全域時空火警圖開創性地引入了基于“類地圖”模式的穿透分析能力,構建了一套支持從業務場景全局到業務場景內部調用,再到應用部署拓撲逐層細化的全方位分析系統。這一創新模式充分利用流平臺、圖庫等大數據人工智能算法優勢,以高速度和高精度對故障進行定位,并精確評估故障可能波及的范圍。在交互上,全域時空火警圖支持通過智慧屏觸屏、電腦端鼠標進行放大/縮小操作。

            (二)多圖層不同維度觀測,支持業務場景細化分析與黃金指標聯動觀測

            為滿足不同視角的監控需求,全域時空火警圖支持“業務場景”、“資源域”、“單元化”、“關基”等圖層,并針對每種類型的圖層,提供監控明細查看功能。點擊“地圖”上的懸浮信息,火警圖右側會展示對應業務場景的細化異常分類及三大黃金指標(交易量、成功率、耗時)趨勢信息,方便用戶進行更深層次的分析(如圖5所示)。

            圖5 多圖層觀測

            (三)多維度診斷決策樹,支持全局定位與應急決策

            全域時空火警圖支持以配置化的形式將問題分析經驗轉化為數字化的決策模型,通過告警觸發自動診斷;默認支持園區級故障診斷樹、單元異常診斷樹、業務場景異常診斷樹、資源異常診斷樹,可快速辨別故障類型是全局還是局部,故障原因是業務異常還是基礎設施異常,并動態輸出診斷結論,為應急切換提供參考建議。

            (四)低成本敏捷接入,動態配置快速上線

            全域時空火警圖支持應用低成本接入,應用側只需依據“業務運維畫像”協助提供需要關注的應用拓撲結構,平臺側根據應用梳理的業務場景,通過動態配置的方式將業務內容添加到全域時空火警圖,無需發版即可上線。

            三、建設成效與未來展望

            截至2025年3月,工行軟件開發中心已有50多個高敏應用的核心業務場景接入火警圖,累計協助快捷支付、銀證轉賬等應用發現生產問題20余次,幫助應用快速定位問題。

            工行軟件開發中心在數字化轉型與系統穩定性建設中已邁出重要一步,通過構建火警圖與全域時空火警圖,實現了故障響應效率的跨越式提升和運維體系的智能化升級。未來,工商銀行將繼續以“科技驅動、價值創造”為核心理念,深化金融科技與運維能力的融合創新,在以下方向持續突破:

            (一)深化智能運維生態,推動全棧式可觀測能力升級

            基于現有“云+分布式”監控技術底座,工行軟件開發中心將進一步整合指標、日志、鏈路等全域數據,強化橫向應用調用鏈追蹤與縱向基礎設施穿透式觀測的聯動能力,通過引入AI大模型與知識圖譜技術,實現根因分析的精準預測,構建覆蓋“事前預警—事中決策—事后復盤”的全生命周期智能運維體系。同時,全域時空火警圖將逐步擴展“資源域”“單元化”等圖層,打造多維度、立體化的監控網絡,為業務連續性管理提供更強大的數據支撐。

            (二)加速技術普惠,構建開放協同的運維生態

            依托火警圖的動態配置與低成本接入能力,工行軟件開發中心將推動全行級應用的標準化、敏捷化監控覆蓋,支持更多業務場景的快速上線與靈活適配,并通過開放平臺能力與行業伙伴共建生態,推動“隔離—擴容—切園區”三板斧等應急模式向運維智能體的高階形態演進,形成可復用的金融級故障處置解決方案,為同業輸出技術經驗與標準范式。

            未來,工行軟件開發中心將持續以科技創新引領金融業數字化轉型,通過智能運維能力的迭代升級,打造“高可用、高敏捷、高智能”的金融基礎設施新標桿,為金融行業的穩定性建設貢獻“工行智慧”,助力實體經濟高質量發展。

            責任編輯:陳愛

            免責聲明:

            中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。

            為你推薦

            猜你喜歡

            收藏成功

            確定
            1024你懂的国产日韩欧美_亚洲欧美色一区二区三区_久久五月丁香合缴情网_99爱之精品网站

            <listing id="lnlbz"></listing>

                <address id="lnlbz"></address>
                <form id="lnlbz"><th id="lnlbz"><listing id="lnlbz"></listing></th></form>

                    <form id="lnlbz"></form>

                    <progress id="lnlbz"><nobr id="lnlbz"></nobr></progress>

                    <address id="lnlbz"><sub id="lnlbz"><menuitem id="lnlbz"></menuitem></sub></address><listing id="lnlbz"><font id="lnlbz"><cite id="lnlbz"></cite></font></listing><thead id="lnlbz"></thead><rp id="lnlbz"></rp>