隨著云計算技術的深入應用,帶來資源集約化和應用靈活性優勢的云原生概念產生,大數據技術完成了從私有化部署到云上部署再向云原生的轉變,云原生能力正被大數據利用以提升效率。信通院最新發布的大數據白皮書指出:“利用云原生思想進行能力升級”為當前大數據技術發展趨勢,在此背景下,中國工商銀行持續探索和實踐大數據云原生化,提升大數據技術對業務的支撐能力,強化金融服務實體經濟的數字驅動能力。
一、大數據云原生建設初衷
自2002年起,工商銀行軟件開發中心即持續優化數據架構、推進數據賦能業務,并在完成數據大集中的基礎上,開啟了金融行業企業級數據倉庫建設。此后,工商銀行軟件開發中心又以“開放、共享”為原則,于2016年啟動了大數據服務云體系建設項目,以搭建可靠、高效、易擴展的大數據技術平臺為基礎,以“一湖兩庫”和豐富多樣的數據服務為支撐,逐步形成了集技術、數據、服務于一體的數據中臺體系。目前,工商銀行已建成同業最大規模單集群,以大數據技術平臺和數據中臺體系支撐全行用數賦智,具備“自主可控、規模大、數據全、用數易、時效高、引擎多元”等優秀特點。隨著數據和業務規模的不斷增長,傳統存算一體的大數據架構逐漸面臨資源和性能瓶頸,在資源利用、資源調度、高效運維、敏捷創新等方面存在諸多瓶頸,逐漸無法適應未來的業務發展需要。具體來說,存在以下幾個方面問題:
1)存算資源緊耦合:傳統架構下,大數據集群的計算資源和存儲資源是緊耦合的,無法實現獨立擴縮容,這造成了計算和存儲資源利用率方面存在局部的不均衡。例如流式計算服務集群的計算資源利用率較高,存儲資源利用率不高,存算一體架構下存儲和計算資源只能同步擴容,帶來資源的浪費。
2)資源調度欠靈活:傳統架構下,各業務集群間資源使用存在一定錯峰的情況,但跨集群、跨業務的彈性資源調配難以實現。計算資源在不同的業務集群之間無法彈性調度,特別是大數據業務和在線業務間存在明顯的錯峰現象,大數據業務高峰通常是凌晨0點至早上8點,在線業務高峰通常是早上8點至晚上22點,由于兩者之間的計算資源不能靈活調度,導致整體設備規模出現了一定程度的膨脹。
3)資源隔離不徹底:傳統架構下,為了實現數據全局共享,通常采用超大規模單集群部署模式,導致關鍵場景之間無法徹底做到資源隔離。
4)集群版本升級難:傳統架構下,由于集群版本升級時,所有節點都需要同時更新,增加停機時間和系統風險,無法實現灰度升級,運維成本越來越高,導致新版本能力、新計算引擎的引入實施節奏慢,難以實現敏捷迭代。
云原生是大數據平臺下一代架構的發展方向,特指大數據平臺充分利用云的特性,以存算分離形態部署,支持計算資源彈性調度,實現技術能力的快速升級,以解決傳統架構下的瓶頸問題。
二、大數據云原生建設思路
工商銀行大數據和人工智能實驗室一直以來保持著對大數據前沿技術的持續跟蹤、研究及應用,針對大數據傳統架構在資源和性能方面的痛點問題,前瞻性地對大數據云原生化進行了總體部署和工作規劃,并在存算分離、資源彈性調度等方面完成了技術試點。
1、架構體系規劃
工商銀行大數據和人工智能實驗室借鑒業界大數據云原生建設經驗,從“算、管、存、彈”四個方面進行架構規劃。通過建設云上統一存儲服務,實現存算分離部署形態,解耦大數據存儲與計算資源,并在架構上獨立建設統一元數據服務,全局形成統一的數據視圖,在統一資源管理服務中引入容器化彈性資源池,支持計算資源彈性調度,使得大數據平臺在資源擴容、資源調度、資源隔離、資源利用率全方面獲得提升,降低大數據平臺綜合成本,提升平臺資源供給能力。工商銀行云原生大數據平臺整體架構可分為計算層、存儲層和資源層:
云原生大數據平臺規劃架構圖
計算層主要負責數據的處理和分析。通過提供豐富的計算引擎,滿足多種業務場景的分析需求,包括批處理引擎Hive/Spark、批流一體引擎Flink、交互式分析引擎等。計算集群不再存儲數據,實現無狀態化,且可實現計算集群之間資源的完全隔離和按需擴容。
存儲層包括統一存儲和統一元數據服務,實現數據統一存儲、元數據統一管理,統一面向多個大數據計算集群提供全局數據視圖,避免傳統架構下跨集群共享數據需拷貝一份帶來的冗余問題。同時,通過權限統一控制,全局保障數據訪問安全。
資源層統一納管底層異構硬件,通過資源池化能力,向上融合供給大數據計算與存儲資源。在資源層統一資源管理服務中創新引入容器化彈性資源池,支持計算資源彈性調度,并實現在離線資源混合部署和調度,使得大數據平臺在資源供給能力方面獲得大幅提升。
2、核心能力建設
通過存算分離解耦存儲與計算資源。工商銀行已在金融生態云完成存算分離架構試點,以公有云形式對行外客戶提供靈活、彈性的大數據計算服務,真正做到計算不夠擴計算,存儲不夠擴存儲,按需供給大數據資源,保障計算、存儲集群的資源利用率充分均衡。
通過容器化資源池實現資源彈性調度。工商銀行已實現計算引擎容器化輕量級部署,并初步完成了容器化彈性資源池建設,支持在離線業務資源的混合部署和調度,大數據平臺可錯峰利用在線業務碎片化資源緩解月末、季末批量資源緊張問題,資源調度的靈活性得到了大幅提升。
利用PaaS云平臺實現容器化彈性資源池
通過計算集群無狀態化改造和拆分,實現關鍵場景之間計算資源物理隔離,并支持集群灰度升級。工商銀行基于存算分離架構,持續推進計算集群無狀態化改造,并計劃將原先的超大規模集群拆分成多個計算集群,做到關鍵場景之間計算資源徹底隔離,同時支持新技術能力的灰度引入與快速迭代,化解超大規模單集群的風險,降低運維成本,持續提升平臺的穩定性。
三、總結與展望
大數據云原生已是不可逆轉的行業趨勢,隨著云計算技術的不斷發展,大數據技術體系也必將向云不斷融合。大數據云原生目前仍處于探索階段,未來工商銀行大數據和人工智能實驗室將持續推進新一代云原生大數據平臺建設,繼續秉持“科技引領,創新賦能”的發展理念,不斷加強與業界領先科技公司的合作,持續提升大數據技術對業務的支撐能力,為金融科技應用實踐和大數據生態建設添磚加瓦。
責任編輯:王煊
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。