案例名稱
瓴岳科技集團:泰山智能風控系統(TMRS)
案例簡介
在普惠金融的大背景下,銀行等金融機構中個人及小微企業用戶占比不斷提升,這對銀行的傳統風控模式及精細化運營能力提出了挑戰。瓴岳科技作為以大數據和人工智能為基礎的金融科技集團,利用多年積累的風控技術及經驗,為金融機構完成數字化轉型提供前沿科技支撐。
“泰山智能風控系統”是瓴岳科技集團獨立研發的、以大數據和機器學習算法為基礎的人工智能風控系統,該套系統在賦能銀行信貸風控方面持續發力,幫助金融機構完成業務規模的提升及壞賬逾期率的持續下降,有效提升了金融機構的風控能力。
創新技術/模式應用
當前基于先進的機器學習算法的風控模型在大數據使用和可解釋性上,都取得了前所未有的進步。機器學習模型可以有效利用高維大數據,而數據的質量、豐富程度決定了模型的上限。
圖表1 泰山風控系統模型平臺圖
(1) 數據采集平臺:終端設備應用可供申請用戶下載、安裝、注冊、填寫申請資料、授權操作,并負責采集用戶授權信息和用戶申請信息;服務器端應用可接收和存儲終端設備應用回傳的用戶申請信息、授權信息等,并進而向第三方發出數據采集請求,也將接收、存儲第三方數據;數據采集平臺所采集的數據主要包括用戶申請數據、鑒權數據、第三方數據等。
(2) ETL平臺:提供申請用戶數據信息的各種處理方法及離線用戶數據的回溯功能,方便為AI模型平臺準備模型訓練資料。
(3) AI模型平臺提供了豐富的機器學習和深度學習軟件包,針對ETL平臺流處理輸出用戶特征進行模型訓練分析。算法包括監督學習算法和無監督學習算法,如邏輯回歸,決策樹,GBDT,聚類,深度學習如卷積神經網絡、Transformer、圖神經網絡等。
圖2 首貸、復貸數據交互圖
在數據利用方面,本機構一大創新在于首貸、復貸數據可以在避免數據信息穿越的前提下,做到互補利用。如上圖2示,首貸風控模型可以利用歷史復貸樣本所提取出的用戶行為序列、還款表現數據,幫助對新客戶申請做評價,而復貸可以直接利用首貸風控所挖掘的特征甚至模型分數,直接提升復貸模型效果。
除了上述提到的復貸數據應用至首貸的創新,同樣,我們也反向的將首貸數據以及運營數據應用至了復貸環節中,實現了對偶性的創新。瓴岳科技集團研發的“泰山智能風控系統”,在首貸數據與運營數據在復貸中的應用具體創新如下:
(1) 復貸對首貸數據再賦能:賦能主要采用了四種模式,分別為,嫁接首貸用戶樣本至復貸用戶集拓展復貸樣本厚度,交互融合首復貸特征拓寬了對用戶描述的維度,對比挖掘首復貸多階段數據差異以刻畫用戶在復貸環節各屬性的變化趨勢,錨定首貸貸前為起點串聯至復貸當前時間節點以延展時間序列數據的長度。通過上述四種方式,不僅完成了首復貸數據間交互二次賦能,還同時實現了對復貸數據集信息含量的擴充,和對正負樣本高度失衡的優化,達到了1+1>2的效果。
(2) 復貸風險與運營數據交互再生:風險與運營雖然是兩類不同業務導向的模塊,然而兩者數據間彼此包含著交集信息,粘性大的用戶通常也表現出相對更高的風險。通過將復貸的風險類數據與行為類數據進行交互融合,利用泰山系統中部署的深度學習如GAN等,在多維度信息交互的前提下進行大量的樣本生成,進而對風險模型與運營模型兩者表現都有顯著提升。
(3)創新綜合打分系統:傳統風控會在用戶所處的特定環節,給出A、B、C卡評分用以判斷未來表現。而“泰山智能風控系統”的打分系統,是以首貸貸前為起點,復貸當前節點為終點,周期性的給出除A、B、C卡評分,此外,還包括欺詐、多頭、額度敏感度、留存意愿等多維度的評分。每一次新分數的計算,是另外兩種分數的加權,第一種是基于當前面板特征而訓練得出的模型分,也是目前行業內較普遍使用的方法,而另外一種,是循環再利用了歷史給出的所有評分進行高階自回歸。因為有循環再利用歷史分數的模式,隨著用戶賬齡的增長,該系統便能愈發充分的挖掘用戶多維度的歷史信息和趨勢變化,從而更優秀的發揮對未來的預測性能。
綜上,通過在“泰山智能風控系統”上嵌合創新的首復貸數據交互模式,我們實現了多種對于首復貸風控以及復貸運營層面的前沿創新系統,打破了數據間的壁壘達成彼此的深度信息挖掘,以及模型間的全聯通信息交互。
項目效果評估
(1)用戶初始化狀態對齊
首復貸數據交互通過數據快照手段保障評級系統在客戶不同階段的可用性,運用嚴格刻畫了完件時間點用戶狀態并保存,客戶全生命周期可對齊相同建模特征,各場景下累加相關信息,豐富模型信息,提升在A、B、C卡階段風控決策能力。
(2)全生命周期數據回填
利用客戶全生命周期數據回填A卡構建過程中用戶細粒度分級信息的缺失。受制于表現時間以及數據鏈路的問題,傳統A卡建模場景下,一般聚焦于首貸表現,難以對客戶進行細粒度劃分,與當前精細化運營場景不符。使用客戶在全生命周期的表現數據,更精準地刻畫了用戶的長期行為,更細粒度地定義了用戶的評級,用戶形象更加立體化,形象化。借助于label精準定義、遷移學習、多目標優化等手段,數據回填得以反哺貸前決策能力。
(3)人工智能助力風險決策能力
在對齊用戶初始化狀態、打通全生命周期數據鏈路基礎上,結合數據形態、使用場景以及業務目標,有區別的使用結構化數據、圖數據、半結構化數據、數據流等適配算法架構,在不平衡數據集、幸存者偏差數據集上進行源域To目標域的遷移學習、GAN以及生成學習算法,充分利用數據資源,針對性地提升風控系統的決策能力。
由于風控下的大多數場景是進行二分類預測,所以通常使用的模型指標是AUC與KS,在一些特定場景中,會同時兼顧準確率與召回率,以及綜合考量二者的F1分數。通過比較僅單獨使用首貸或復貸數據的模型,以及在前者基礎上依次疊加數據相互賦能、循環打分的模式,可以看到模型性能指標在穩步上升。
圖3 復貸數據使用對首貸提升圖
圖4 首貸數據使用對復貸提升圖
項目牽頭人
張晉堯
洋錢罐首席風險管理執行官
項目團隊成員
仵贇、王丹、王振波、李慧、胡伊、董弋嵩、劉笑臣、魏鳳芹、高楊俊紅、劉春祥、韓洋
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。