案例名稱
小微企業貸后風控預警
案例簡介
與以往風險預警系統不同的是,一般風險預警系統是基于規則來實現預警,在本項目中,通過模型來填補規則的不足,使風險預警系統更加完善;模型本質上是不同于規則的方法,可以同時對成百上千個變量進行綜合處理,這點是規則達不到的。本項目使用的算法為GBDT+LR模型,第一個GBDT模型是決策樹的融合,第二個模型是基于回歸的方法,第一個模型的輸出作為第二個模型的輸入,提升模型效果。
此外,本項目形成了一套全流程的風險預警體系,可以預測未來3-6個月內客戶的風險情況,給客戶經理提供參考作用,輔助客戶經進行貸后處理。模型的覆蓋率可以達到60%以上,準確率可以達到40%以上,大大高于同行業的小微企業風控預測模型效果。
創新技術/模式應用
搭建數據科學平臺:推動解決全行機器學習建模門檻高、效率低、管理難、不自主的問題,促進全行數據建模架構統一和建模經驗的分享與復用。本項目主要涉及的建模流程中核心技術主要分為兩方面,分別是變量降維中的變量聚類方法以及在建模過程中使用的GBDT+LR算法,變量聚類能快速有效的進行變量挑選,選出最直接有效的變量,以此來提高運行效率和整體性能;另外一個關鍵技術是GBDT+LR算法,提高模型的準確率及穩定性。
· 變量聚類
變量聚類是變量降維過程中一種重要方法,是一種基于主成分分析的方法。建模變量數量不同,建模過程的耗時也會不同。在實際構建模型時,變量數量可能上千個,當變量數據足夠龐大時,這個時候采用變量聚類則可以快速實現變量的降維,然后再基于降維后的變量進行建模。此時,模型的運行效率會大大提升。
在本項目進行變量聚類的變量挑選,首先對項目涉及變量進行變量聚類,劃分出一定類別,每個類中變量數目為一個或多個;然后,計算每個變量對Y變量的影響程度(隨機森林重要性),在每個類中挑選出影響程度最高的變量,作為該類的代表變量。
· 建?!狦BDT+LR
GBDT+LR本質上是一種具有stacking思想的二分類器模型,所以可以用來解決二分類問題。GBDT+LR 使用最廣泛的場景是CTR點擊率預估,即預測當給用戶推送的廣告會不會被用戶點擊。
點擊率預估模型涉及的訓練樣本一般是上億級別,樣本量大,模型常采用速度較快的LR。但LR是線性模型,學習能力有限,此時特征工程尤其重要?,F有的特征工程實驗,主要集中在尋找到有區分度的特征、特征組合,折騰一圈未必會帶來效果提升。GBDT算法的特點正好可以用來發掘有區分度的特征、特征組合,減少特征工程中人力成本。
GBDT+LR 由兩部分組成,其中GBDT用來對訓練集提取特征作為新的訓練輸入數據,LR作為新訓練輸入數據的分類器。
項目效果評估
在小微企業建模過程中,主要通過變量聚類來達到變量降維目的,大大提升建模效率,通過GBDT+LR建立模型,提高預測效果的準確性及穩定性。
· 實現的核心功能(預測)
將要預測客戶的輸入特征按照預測模型的變量重要性進行選擇,同時,對選定的輸入特征變量進行相應的數據轉換,并作為預測模型的特征變量進行預測。
· 達到的性能指標
樣本集按照7:3比例劃分為訓練集和驗證集,驗證集主要用于樣本內評估,確保模型的有效性。樣本內模型效果:AUC:0.92,KS:0.68;
使用樣本外觀測(預留)進行驗證,覆蓋率:0.62,準確率:0.41,AUC:0.9,KS:0.62,模型效果較好。
· 風險控制方案
通過發送名單給風險預警系統,然后分發給各個分行的業務人員,分行業務人員根據名單及給出的違約原因,制定相應的催收政策;節省人力的同時,幫助行內完成風險控制。
通過借助大數據、機器學習等技術挖掘問題客戶的行為特征,實現對企業客戶貸后逾期風險早識別、早干預,聚焦關鍵問題客戶,縮減風險排查范圍,提高貸后管理針對性,從而提升小企業資產質量。具體的講,覆蓋率超過60%、準確率超過40%;在業務驗證中,命中率遠遠超過了40%,幫助客戶預警了近8億元人民幣的信貸資產。
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。