引言
近年來,隨著信息技術的快速發展,數據作為新的生產要素在各行各業中扮演著越來越重要的角色。銀行4.0時代,數據資產已成為銀行數字化轉型的重要基石,而數據資產盤點作為銀行數據資產運營的關鍵環節正逐步成為行業關注的焦點。
目前,商業銀行數據資產盤點大多采用“自上而下”或“自下而上”方式開展,存在人工標注工作量大、難持續等問題。隨著智能化技術的發展,部分銀行已開始研究利用AI技術解決人工標注的難題,但考慮到每個標注分類至少需要1000條樣本標注數據,一個簡單的十個二分類模型的訓練就需要10萬條以上標注樣本,人工標注的工作量問題仍然沒有完全解決。同時,訓練好的模型如何適配不斷增長的數據也是一大挑戰。不過AIGC(人工智能內容生成)技術的興起,給智能標注課題帶來了新的方向。因此,本文旨在探索基于AIGC的數據資產盤點應用,希望能夠為商業銀行智能化數據資產盤點提供一些新的思路。
什么是AIGC?
AIGC是“Artificial Intelligence Generated Content”的縮寫,即利用人工智能技術來生成內容的一種新型技術。AIGC也被認為是繼UGC(專家生成內容)、PGC(用戶生成內容)之后的新型內容生產方式。AI繪畫、AI寫作、AI編程等都屬于AIGC的分支。其實,AIGC技術的基本原理就是利用AI技術(自然語言處理、機器學習等)對大量的語言數據進行分析、學習和模擬,從而實現對自然語言的理解和生成。目前,AIGC的技術大致分為“基于規則的AIGC技術”和“基于機器學習的AIGC技術”兩大類。
1.基于規則的AIGC技術
基于規則的AIGC技術是指利用人工智能技術中的專家系統和知識庫,通過編寫一系列的規則來實現對內容的生成,這種技術的優點是AI生成內容比較準確,但是需要充足的人力和時間來編寫規則。適用于數量級適中,業務規則相對具體、可歸納的專業化場景。
2.基于機器學習的AIGC技術
基于機器學習的AIGC技術是指利用人工智能技術中的機器學習和深度學習算法,通過對大量的語言數據進行學習和模擬,從而使人工智能創造新的理解和內容。這種技術的優點是生成的內容比較自然、流暢,無需編寫規則,但是需要大量的語料和計算資源,成本比較高。適用于數據量巨大、業務規則復雜、人力難以歸納總結的復雜性場景。
總的來說,雖然基于規則或機器學習的AIGC技術各有優缺點,但回歸到商業銀行的實際應用場景中來考慮,由于當下銀行的數據資產基本固定于一個相對穩定的數據量級范圍,規則也與銀行業務息息相關,所以基于規則的AIGC技術更合適商業銀行開展數據資產智能化盤點。本文后續的研究也將基于此技術開展。
智能化數據資產盤點研究
1.研究目標
光大銀行從2019年啟動數據資產管理工作,已實現對全行300+系統的登記,沉淀數據資產36萬+,數據資產數據項500萬+,雖然已建立部分專家業務場景,但因工作量大等問題并未實現360°全場景的數據資產盤點。因此,本文的最終目標是研究利用AIGC技術實現對全量數據資產360°的智能化標注分類。但是,考慮到實際操作的復雜性和時間、成本等因素,現提出三個假設對目標進行簡化,專注研究方案可行性。
假設1:數據集為5萬條數據資產數據項集合
假設2:使用FS-LDM十大主題(見圖1)當做不互斥標簽分類體系
假設3:每次分類所需的標注樣本限制為100條
結合上述假設,那么本文的研究目標即為:利用AIGC技術實現5萬數據資產數據項集合的FS-LDM十大主題不互斥二分類的智能化標注。
圖1 FS-LDM十大主題
2.研究方案及結果
一般數據資產智能標注主要包括樣本標注、分類模型訓練、分類模型維護三大步驟,如圖2所示。
圖2 一般數據資產智能標注方案設計圖
光大銀行為解決訓練樣本人工標注工作量大、模型難以自適應數據增長的難題,對上述步驟進行優化,如圖3所示。
圖3 光大銀行數據資產智能標注方案設計圖
1)樣本標注:
樣本標注的整體流程如圖4所示。
圖4 樣本標注整體流程
首先,使用聚類的方式(LDA主題模型)對待訓練樣本進行初步的分詞聚類,得到對應簇的主題詞的概率分布,如表1所示。
表1 LDA主題模型主題聚類結果
其次,結合各簇的關鍵主題詞與專家經驗,梳理形成基于FS-LDM分類體系的數據資產標注專家規則,如表2所示。
表2 專家的規則設計
最后,使用該規則與聚類后的主題簇進行匹配完成樣本標注,部分樣本數據如表3所示。
表3 樣本數據展示(部分)
2)模型訓練:
本文在模型訓練時使用支持向量機、決策樹、隨機森林和神經網絡等不同的詞向量構建方式,同時考慮中文、英文名稱文本數據進行分類器訓練,基于此確認最佳的模型分類器。表4展示了不同模型在FS-LDM“事件”這一分類中的表現效果。
表4 不同分類器在“事件”分類下的效果
結合各分類模型效果評估結果,最終選擇支持向量機(SVM)作為預測的算法,并使用詞袋模型作為文本特征向量提取的方式,并僅對中文字段進行處理。
SVM+詞袋模型在FS-LDM分類體系的效果如表5所示。從下表可知支持向量機與詞袋模型的組合在處理大多數FS-LDM分類的任務中都能達到超0.9的查準率與查全率,在渠道主題的分類任務中準確率甚至達到1。整體看來模型效果較好。
表5 SVM+詞袋模型在FS-LDM分類體系的效果
3)模型維護:
本文為解決“已經訓練好的數據資產智能標注模型隨著數據量的增加,將不再適用于標注新增的數據資產”這一難題,引入經驗池的概念,并結合增量學習的方式,實現對模型的長期維護。經驗池可利用數據資產管理平臺使用者的反饋進行構建,并在一定的規則和制度下進行定期更新,從而實現對模型的長期維護,整體維護方案如圖5所示。
圖5 增量學習模型長期維護方案
智能化數據資產盤點實踐思考
隨著AIGC技術的高速發展,智能化數據資產運營是數字化轉型的必然趨勢,本文在限定條件下驗證了基于AIGC技術的數據資產自動標注的可行性,并給出一種解決訓練樣本人工標注工作量大和模型不可持續問題的智能化數據資產盤點方法。后續將基于研究成果從以下幾方面進行細化落地。
1.盤點標簽體系的設計
由于完善的全行標簽體系復雜度和耦合性都較高,從易用性和可行性方面考慮,光大銀行智能化盤點的標簽體系計劃從兩方面設計:一方面是建設通用的標簽體系,參考FS-LDM、企業級數據模型等覆蓋全行各個業務領域,為全行數據資產打上通用普適性的標簽;另一方面結合實際的業務需求,開展基于單一業務場景的標簽設計,通過細化業務標簽體規避通用性標簽全而不深的問題。
2.專家規則生成
專家規則的生成需要從多方面考慮,一方面收集各領域專家的經驗;另一方面結合數據資產所屬系統、所屬部門等多維度信息,將之與訓練樣本分詞聚類的結果進行融合匹配,最終歸納得到專家規則。
3.經驗池關鍵信息篩選
用戶信息反饋必定伴隨著無效信息或干擾信息,為保障增量學習模型的可靠有效,必須對經驗池進行有效信息篩選,通過建立關鍵詞詞庫,將用戶反饋信息分詞結果與關鍵詞詞庫進行匹配,實現經驗池關鍵信息的篩選。
目前,光大銀行正持續開展盤點標簽體系與專家規則的梳理,推進智能化的數據資產盤點走向深入。未來,當用戶查詢全行數據資產時,將依托數據資產管理平臺,基于智能化的數據資產盤點成果,提供360°標簽化數據資產畫像,實現數據資產查詢由“單點”到“全貌”的服務升級,做到數據資產查詢“見一而知全貌”。
原載:中國光大銀行數據+
作者 | 林勇 秦旭昆
視覺 | 王朋玉
統籌 | 鄭 潔
責任編輯:王超
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。