本文作者系網聯清算有限公司 強群力
非銀行支付機構網絡支付清算平臺(以下簡稱“網聯平臺”)自2016年8月啟動籌備工作,一開始就面臨幾大技術挑戰:為支持高速發展的網絡支付業務,平臺并發交易處理能力要達到12萬筆/秒,極值處理能力18萬筆/秒;為了保證用戶的良好體驗,平均交易響應時間要低于1秒(包括銀行的處理時間);為了保證業務持續平穩運行,系統在線可用率要達到99.99%,并能夠承受城市級的災難。同時投產時間窗口計劃在2017年3月31日啟動試運行。如何在這么短的時間里,從無到有地建設一個高質量的金融市場基礎設施,成為網聯建設者們必須要解決的一個問題。打仗時,兵馬未動,糧草先行,反映在平臺建設上就是架構先行。以下就網聯平臺總體架構中的四個關鍵選擇(分布式架構、多點多活的三地六中心、機構多線多活接入以及平臺/機構協同路由)進行說明。
集中式VS分布式
第一個關鍵選擇就是使用分布式還是集中式架構。集中式架構是目前金融系統廣泛使用的架構,大多使用大型機和小型機組成集群。目前已知最優秀系統(如Visa、MasterCard)的極值處理能力達到了6萬筆/秒,遠遠達不到網聯平臺18萬筆/秒的要求。相對于集中式架構,分布式架構普遍使用PC服務器組成集群,集群內節點數量遠遠大于集中式架構下的集群。服務器單點故障時,隔離故障所帶來的影響大大降低,容錯容災能力大幅提升,擴展性好而成本卻大幅降低。同時,分布式架構已經在市場上被充分驗證可以支撐極大交易流量,例如支付寶2015年“雙十一”交易峰值達到8.59萬筆/秒,財付通2016年春節交易峰值達到15.8萬筆/秒。兩相對比,分布式架構成為網聯的必然選項。
網聯的數據中心如何合理布局
統計表明,支付機構和銀行的數據中心體現出較強的聚集性,即大多分布在北京、上海、深圳3個城市。為了減輕機構、銀行接入成本,降低平臺與各參與方之間的通訊時延,進而提升交易響應速度,這三個城市也就成了網聯數據中心落地的優先選擇。同時,由于工期緊,自建數據中心不可行,租用市場上成熟的IDC服務也就成為必然選擇。
選定城市后,項目組深入研究了“兩地三中心”和“三地三中心”兩種經典成熟的方案?!皟傻厝行摹笔莻鹘y的一主一備一災備架構,要求每個數據中心能夠處理全量交易;“三地三中心”則是兩個處理中心+一個控制中心的架構,由處理中心負責交易的實時轉接,交易實時處理完成后上送控制中心進行清分匯總軋差,這就要求控制中心具備全量交易處理能力。這兩個方案對單中心的性能要求很高,即使是支付寶、財付通其時也沒有在一個中心處理18萬筆交易/秒的經驗,其可實施性和可擴展性難以保證,因而未被采納。
從分散處理壓力、提高系統冗余、保障業務持續可用等方面考慮,網聯決定采用多活的架構模式,即網聯在各地的數據中心同時處理支付機構發送的交易請求。那么,這些多活數據中心到底部署在幾個地方合適呢?一地多個中心因為不能承受城市級的災難而不被考慮?!皟傻囟嗷睢狈桨概c“三地多活”方案對比,為了承受城市級災難,“兩地多活”需要提供一倍的冗余處理能力,而“三地多活”方案只需要提供50%的冗余。從節省成本考慮,“三地多活”方案勝出?!叭亍币陨系姆桨敢驗楣て?、資源原因,暫時無力考慮,后續擴容時再行定奪。
選定三地多活方案之后,為了增加城市內的冗余,參照同城雙活模式,決定在一個城市建設兩個數據中心。同城兩個數據中心相距20~30公里,既有效隔離市電故障,又保證兩中心之間的光纖傳輸速率得到保障。最終網聯初期建設選擇了在北京、上海、深圳三地租用6個數據中心來承接網絡支付轉接清算業務,每個數據中心需要提供3萬筆/秒的處理能力,現有技術完全可以實現。
參與機構如何接入網聯平臺
在居間轉接清算模式下,網聯平臺前接支付機構發送的支付請求,后轉各家銀行完成資金結算,上連清算總中心大額支付系統完成銀行間資金清算。大額系統有其特定的接入模式,網聯平臺遵章執行即可。機構和銀行如何接入還需費心考量。
先來看看支付機構的接入。目前,115家機構具備網絡支付、移動支付牌照,在市場份額上體現出極為明顯的寡頭效應,支付寶和財付通(“兩大”)兩家占據了90%的市場份額,其后7家機構占據了9%左右的市場份額,剩下的1%市場份額由其余100多家機構瓜分。因為規模巨大,兩大的接入是網聯平臺必須要直面的技術挑戰。而類似規模、不同機構的系統間對接,業界尚無可參考的案例。因此必須考慮周全如何破局。
首先,一地一中心和一地兩中心接入因不能承受城市級災難而勿需考慮。機構必須要接入網聯平臺的多地多中心才能留有足夠的冗余。其次,因為兩大的交易流量占據平臺流量的絕大部分(特別是在流量峰值時),為了最大化地利用網聯平臺各個數據中心的處理能力,兩大的流量必須平均分配到三地六中心,否則就不能充分利用網聯平臺的處理能力。而其他機構因為交易量有限,可以通過機構間的統籌安排來達到均衡交易流量的目的。最后,從線路利用率、容災能力、成本幾個角度來看,多活線路天然具備優勢,缺點是對機構的技術和運維能力要求較高。
最終平臺確立了基于平臺分配、跨地域和跨運營商三大接入原則,根據支付機構的業務規模以及能力水平,要求大型支付機構采用6線接入網聯三地六中心,中型支付機構至少采用4線接入網聯三地四中心,小型支付機構至少采用2線接入網聯異地兩個數據中心。各家機構在所有線路上要做到流量平均分布,以最大化地利用網聯三地六中心的處理能力。
過程中也有人提出一點接入、平臺內部分發的方案。實現這個方案需要滿足以下幾個條件:線路帶寬要能支持機構的業務峰值;至少需要一條同帶寬的備份線路;每個中心需要和其他5個中心保有足夠高的帶寬;平臺要確保每筆交易分發目的地的一致性。
滿足前兩個條件會給支付機構帶來更高的成本。因為從一個接入點分發交易時大部分流量需要跨城跨省,滿足第3個條件平臺需付出很大線路成本。滿足第4個條件平臺需要實現復雜的分發邏輯并要能在接入點支持18萬筆/秒的流量分發,需要較大的帶寬投入、設備投入和研發投入。從節約成本、保證工期、科學合理的角度出發,該方案最終未被采納。最重要的是,多活線路接入方案是在互信規則安排下,從為股東負責、為結果負責、為最大程度降低社會成本的角度出發,既不影響處理效率,又能最大程度集約成本,這個方案兼顧效率、性能、成本三者的最大公約數。
再來說說銀行的接入。相對于支付機構,雖然銀行在市場份額上仍然體現出頭部效應,但是并沒有形成寡頭,五大國有商業銀行占據了70%的市場份額,12家全國性商業銀行占據了20%的市場份額,其他銀行的市場份額為10%。目前,大部分銀行具備了兩地三中心的能力,有些具備了雙活的能力,極少數具備了多點多活的能力。和支付機構的接入原則一致,網聯要求國有商業銀行和全國性商業銀行采用6線接入網聯三地六中心,其他商業銀行至少采用2線接入網聯異地兩個數據中心。
支付交易如何高效地路由
多活分布式系統使用方和提供方之間的交易路由方案一直是業界熱門的話題,其核心問題是如何保證單筆交易的路由最終性。如果不能保證,則會造成同一筆交易被路由到不同的數據中心多次重復處理,導致資損和/或重復扣款,引發客戶投訴,以及后續一系列問題。目前業界大致有如下三類解決方案。
1.使用方自行生成交易流水號
交易路由完全由提供方負責,使用方一概不管。提供方收到一筆交易后,為了確保該筆交易的路由最終性,需要在全平臺進行防重檢索。如果存在,則使用已有路由轉接處理。否則,選擇一個新的路由來轉接處理。該模式的優點是使用方實現簡單,提供方完全可控。缺點是每筆交易都要進行全平臺檢索,隨著交易規模的不斷增長以及數據中心地域上的擴展,提供方的整體穩定性難度、技術實現復雜度、運維成本以及響應時間都會逐步增長?;谝陨先秉c,該方案在大規模、高并發、跨地域的分布式系統中很少采用。
2.使用方向提供方申請路由標識后生成交易流水號
對比方案1,提供方不用做全平臺防重檢索,只需在路由標識指向的處理集群內檢索即可防重。但使用方增加了一次和提供方的交互,同時還要保證每筆交易的路由標志一旦確定即不可更改,否則會造成交易的重復處理。在大流量、多地多中心場景下,由于取消全平臺檢索帶來的性能節省遠大于路由標識申請的性能消耗,最終結果是處理性能的提升。這是財付通目前使用的方案。
3.使用方按照提供方制定的規則選擇路由標識生成交易流水號
對比方案2,雖然使用方還是要保證每筆交易的路由標識一旦確定即不可更改,但是節省了跨系統的路由標識申請交互。缺點是使用方需要維護路由標識列表,提供方對路由的控制力下降,需要信任使用方按照規則行事并有足夠的防沖擊能力。目前Amazon.com、PaymentTech以及多數雙活系統采用此種方案。
打個比方,防沖擊能力是廠房,一次建設,長期使用;維護路由標識列表是生產設備,需要定期維修保養。以上兩項屬于固定成本。使用、申請路由標識和防重檢索則是生產工序中的一環,屬于變動成本。眾所周知,規模達到一定程度之后,固定成本會被攤薄,變動成本的節省則會持續積累,超過臨界點之后,變動成本節省將會遠遠大于固定成本。
在我們的場景中,網聯平臺是提供方,支付機構是使用方?;诰W聯平臺超大規模、超高并發的特點,網聯決定用固定成本投入換取變動成本的持續節省,最終選擇了方案3,并進行了進一步的細化、優化。具體來說,路由標識指向了一個數據中心中的一個數據庫中的一個表,帶來的好處就是交易防重只需要檢索一張表,相比較庫級和數據中心級的防重,因為需要檢索的數據量級上的減少,性能得以大大提升。付出的代價就是網聯平臺需要在多維度上建立防沖擊能力,支付機構則需要按照網聯規則維護和使用路由標識列表。規則其實很簡單,機構定時拉取路由標識列表,接收到特定系統返回碼時停止使用當前路由標識并拉取最新路由標識列表,采取輪詢或隨機的方式平均使用路由標識。
為了節省資源,最大限度地發揮平臺的處理能力,平臺要求支付機構在平臺運營初期進行交易發送時,能夠盡量平均地分配到三地六中心,以實現全平臺六中心能夠承接每秒18萬筆極值交易流量的目標。同時,平臺配套建立了限流規則,保障按照平臺規則操作的支付機構的利益,最終保護廣大消費者的權益。網聯平臺是廣大支付機構按照“共建、共有、共享”原則一起建設起來的,我們相信所有參與機構都會遵從契約精神和共同認可的平臺規則,共同保障平臺持續、穩定運行。未來,平臺將基于自身的運營情況,通過迭代優化的方式,更好滿足支付機構和銀行的服務體驗,根據業務增長需要持續穩健地推進極值交易流量處理能力的不斷攀升。
綜上所述,遵從分布式架構思想,網聯建設了多點多活的三地六中心,實施了參與機構多活線路接入方案,確立了平臺/機構協同路由模式。2017年3月31日平臺上線了基本業務功能,順利啟動試運行,6月30日大型支付機構正式向平臺啟動業務切量。同時,平臺系統經過了多輪的壓力測試和生產壓測,完全滿足設計要求,為后續按照央行要求終結直連模式奠定了堅實的基礎。
展望未來,網聯將持續迭代優化平臺架構,進一步健全交易路由方式,逐步實現資源松耦合,解決生產運維中出現的各類問題,通過不懈地技術演進,努力將網聯平臺打造成國際領先的分布式金融市場基礎設施,助推金融科技領域分布式架構轉型,助力構建以分布式系統為核心的數字央行服務平臺,為建設更加先進、強健、穩定的國家金融支撐體系做出貢獻。
1024你懂的国产日韩欧美_亚洲欧美色一区二区三区_久久五月丁香合缴情网_99爱之精品网站
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。