案例名稱
中原銀行診斷分析平臺
案例簡介
中原銀行診斷分析平臺是為應用開發人員提供的,用于對應用系統進行問題分析、排查、定位和性能優化的平臺,實現了問題診斷與分析的可視化、引導化、共享化、智能化。
系統適配及安全
在建設診斷分析平臺之前,開發人員在排查定位應用問題時主要存在如下痛點:
1. 行內絕大部分系統基于java語言開發,但卻無針對java語言的方便快捷使用工具,缺少好的、專業的、方便的排查工具;
2. 常見問題無法快速定位,且存在重復發生,重復查詢,沒有明確的指導排查方向,也無法共享排查問題方法,耗時耗力,排查效率低;
3. 現有排查問題平臺是開源的Arthas,使用門檻較高,需要熟悉各種排查命令,且上手難,使用難,需要目標機器部署Arthas包,并需要訪問目標進程的權限。
為此,我們建設了中原銀行診斷分析平臺,中原銀行診斷分析平臺不但支持遠程一鍵開啟JVM應用診斷,只需登錄診斷分析平臺管理端即可快速對應用進行診斷;還提供了火焰圖、SQL監控、連接池監控、內存分析、源碼查看等多達十幾種功能,可以快速協助開發人員定位各種JVM應用問題。
1. 系統適配方面,中原銀行診斷分析平臺兼容虛擬機、K8s容器云等多種應用部署模式,尤其是容器云環境,業務系統及鏡像無需任何改造即可使用平臺。
2. 系統安全方面,中原銀行診斷分析平臺提供完善的RBAC用戶權限控制功能,通過最小必要的權限分配原則,每個系統開發人員只能訪問自身負責的系統應用。同時擁有審計功能,用戶在診斷分析平臺的所有操作做到可追溯。完善的權限及審計功能對于金融行業來說非常有必要,進一步提升了業務系統的安全性,有效避免了人為生產事故。
集成創新效果
技術創新方面:
1. 詳盡直觀的應用狀態展示:中原銀行診斷分析平臺以圖形化的方式展示JVM應用以及服務器的運行指標,包括JVM堆棧、線程列表、垃圾回收、線程對CPU的消耗等JVM應用指標,以及CPU、內存、網絡IO、磁盤IO、磁盤空間使用等詳細的服務器指標。豐富的運行指標、清晰直觀的圖形化展示方式,能夠使開發人員快速了解應用的詳細運行狀態。
2. 豐富易用的診斷分析功能:中原銀行診斷分析平臺提供了火焰圖、內存分析、SQL監測、連接池監控、動態修改日志級別、Trace、Watch、Monitor等多達十幾種功能。如基于火焰圖功能,只需10秒即可快速定位導致CPU、內存使用異常的具體問題代碼。平臺豐富的應用診斷分析功能,配合簡單易用的操作界面,極大的提升了問題定位效率。
3. 自動化的事前留痕功能:中原銀行診斷分析平臺提供了事前留痕功能,即當監測到應用出現異常時(如CPU、內存使用異常,接口影響慢等問題),診斷分析平臺會自動生成火焰圖、內存快照等數據來保留“現場”,方便開發人員后續定位問題。事前留痕功能提升了業務系統的自動化運維能力,且對于解決一些偶發、難以捕捉的疑難問題非常有效。
4. 智能多緯的健康檢查功能:中原銀行診斷分析平臺通過收集應用的各項運行指標(如:垃圾回收、CPU使用、SQL執行、連接池使用等狀態指標)可自動對應用的健康狀態進行打分。平臺采用自動化、智能化的手段,進行多緯度的應用指標分析,可將應用的問題發現提前至開發階段,極大的提升了系統穩定性,保障了業務的連續性。
建設效果方面:
中原銀行診斷分析平臺自2021年5月上線至今,已推廣業務系統30套+,協助業務系統快速定位生產、測試環境等各種疑難緊急問題800次+,常見應用問題(如:CPU使用率高、頻繁垃圾回收等)的定位時間從數小時縮短為5分鐘,極大提升了業務系統定位問題的效率,降低了問題排查的時間成本。有效增強了業務系統的安全性、穩定性以及業務連續性,為我行分布式架構轉型奠定了堅實基礎。
項目牽頭人
薛恩峰
項目團隊成員
向坤增、陳鄆、王東、楊曉兵、馬姿、白小迪、張洋、于爽、張棟梁、孫偉、黃曉洋
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。