前言:本站為你精心整理了大數據風控技術在互聯網金融的實踐范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:隨著互聯網技術與金融業務的融合發展,當前金融欺詐呈現出“專業化”、“集團化”,導致企業在風險處置上花費較多的成本;此時大數據風控技術應運而生,該技術就是利用結構化數據、半結構化數據和非結構化數據,通過數據采集、實時\非實時數據加工等技術手段,結合各類風控模型,識別出風險客戶,從而降低企業運營成本。經過艱苦的開發,系統已經建立起以實時\非實時數據集市為基礎,數據采集和為依靠,規則引擎為載體的體系,有效降低各類風險的沖擊。
關鍵詞:數據采集;實時計算;規則引擎;大數據處理
金融科技(fintech)在最近幾年發展的風生水起,以螞蟻金服為代表的互聯網企業和以興業數金為代表的銀行系科技集團均涉及其中。金融的核心問題之一便是風險控制,所以當前眾多科技企業對外服務的核心都是大數據風控系統。
1系統設計思想
如今大量的金融機構服務的客戶,特別是C端客戶,不再是28理論中20%的優質客戶,這些客戶主要被銀行甚至更加高端的私人銀行壟斷。因而他們的主要服務對象是80%的用戶。如何從這些客戶中篩選出優質客戶,是這些金融機構面對的難題。如果僅僅依靠傳統的風控系統,會面臨審批周期長、拒貸率高、人工成本高等問題。在開發這套系統之前,我們隨機從目標客戶中抽取了一些樣本,建立了借款客戶的用戶畫像。從畫像特征中了解到他們的主要特征是金額小、頻次高、借款時間短、放款審批周期短。而這些特征也印證了對上述問題的判斷。相較于傳統風控系統而言,大數據風控系統強調的重心在于大數據和風控系統。傳統風控系統主要是基于客戶的收入水平、所在行業、負債水平建立評分卡,從而確認該客戶的風險水平,所以從這方面來看,傳統風控系統用的數據只是側重反應了某一方面的狀況。而大數據風控系統則是利用圖像、社交活動數據、行為軌跡、地理位置等數據全方位評估用戶的風險水平,規避傳統風控系統的問題。任何事物都會呈現兩面性,隨著系統的投入使用數據會呈現出爆發式增長,并且還會出現數據變動快、系統效率變慢的問題。但是隨著金融機構業務的發展,又對風控系統提出了高并發、高響應、操作簡單、海量存儲等更苛刻的要求。使用傳統的數據處理方法已經不在適應行業的要求。因而必須要對系統做合理地切分,并且使用更新的技術方法來制作。從系統面對場景上來看,大數據風控系統不僅僅是要與信用風險做斗爭,同時還要盡量支持更多場景,比如:羊毛黨、支付欺詐等,不僅如此,新的系統還要監控流程中各個環節,從而達到盡早發現、盡早防控的目的。因此大數據風控系統,已經不再是一個系統,而是由若干個系統組成的系統集群,通過該集群的合力工作,幫助用戶快速提升業績。
2大數據平臺及大數據風控體系建設
針對上述的設計思想,本文將以嘉銀金科的反欺詐系統構建為例展開探討。目前嘉銀金科的增量數據呈現出爆發式增長,增量單位為T,這些數據主要是包括行為日志、業務日志、各類json和XML文件、照片、活體認證資料等,從數據形態上又可分為結構化數據、半結構化數據和非結構話數據,從業務屬性上將其劃分成若干個數據集市,比如:訂單數據、支付數據、用戶屬性數據等。先將數據分為實時和非實時,實時數據又區分為分鐘、小時、天3個范圍,因為在實際的風控業務中,實時計算結合歷史數據的計算占據了大量的場景。
2.1大數據平臺建設
在數據體系建立中,需要將數據分層,目前主要將數據分為三層,分別是數據采集和整理層、數據建模層、數據應用層。
2.1.1數據采集和整理層
在該層中存放各種類型的原始數據和預處理數據,包括數據庫數據、Nosql數據、半結構化數據、各類日志等,每天系統會根據設定的任務,自動從目標系統中抽取數據,目標系統包括各類業務系統、日志系統、交易臺賬等,抽取好數據后會直接進入該層的數據庫。再抽取完成后,系統便會根據ETL腳本的邏輯關系,選擇需要啟動的腳本,將rawdata轉化為productdata。離線批處理采用的是Hadoop分布式存儲+分布式運算的框架,可以對海量數據進行統計分析,解決單節點極限性。目前選用的是Mapreduce/Spark混合架構,主要是因為spark主要在內存中處理數據成本較高。數據采集和集成工具使用的組件是StreamSets。
2.1.2數據建模層
該層數據是存儲可用于直接用于生產系統的數據,是經過數據清洗過后的干凈數據。主要以業務標簽數據、會員畫像、設備畫像等。在該層中數據將會深度介入業務,根據需求將數據切分為多個數據集市,助力業務發展。目前這些數據的主要為風控、推薦、精準營銷等業務線的深度學習模型、業務分析、數據服務接口等功能服務;在該數據層中,數據分析人員使用python\R\SAS等工具對數據建模,為下一步的數據應用提供支撐。
2.1.3數據應用層
根據業務線特點,將數據區分成適用于不同業務的數據應用產品,該層也存儲報表、數據分析報告等產品的數據;該層數據在應用中典型的應用場景包括:數據大屏、BI系統等。在這里重點介紹風控體系的數據建設,風控體系數據包括了貸前、貸中、貸后,這三類數據全部融入在上述所說的體系中,其中貸前數據用于檢測可能的異常行為,并在借款之前將其拒絕;貸中數據用于在借款過程中的各類模型即風險評估;貸后數據用于驗證各類模型的效果,并及時提高模型的準確度。同樣還需要注意的是離線批處理功能和實時計算功能并不是集中在某個數據層中,每一層都會涉及。下面將重點闡述下實時計算功能,從目前的實際需求來看,有大量的實時計算需求,比如監控、統計。而在這些計算需求中主要是各類匯總計算包括聚合計算、排序等,更為麻煩的是這些計算邏輯需要將熱數據、溫數據和冷數據加總。為此在設計指標數據結構必須要考慮一致。計算結果會根據實際用途存放在不同的地方,實時存儲在redis/hbase,批處理方式的結果存儲在hive中。系統是從消息總線來獲取實時數據,結合批處理的計算結果,通過約定好各類ID將實時數據結果和批處理結果放在一起做后續的匯總計算,最終的匯總計算也是放在實時計算里實現。目前使用的實時計算工具是flink+kafka,計算邏輯是ksql定制。批處理的結果是從hive中查詢,一旦查詢任務過多,單機是無法承受的。這就需要引入分布式技術來分攤查詢任務,本系統中引入的組件是springcloud但是在實際開發過程中,往往會有細致的問題,目前系統中遇到的最多的兩個問題是:(1)線程計算任務分問題,在分布式計算過程中,每個計算任務消耗的資源和時間是不同的,有主機的任務較為繁忙,有些則空閑,所以還需對各個線程做監控,并實時調度,我的思路是在系統中加入一個類似通知欄功能,里面記錄計算的任務數,已經完成的任務數,消耗時間等內容,當一個任務計算完成后告知通知欄。(2)時序問題,實時計算過程中,使用的數據源是數據流,在實時計算過程中,可能會涉及雙流計算甚至更多的流。由于網絡等其他問題,數據流到達消息總線的順序可能和預想的不一樣,如果不考慮著這種問題,那么會引起很多錯誤導致系統故障。對此,我的解決方案是:引入互相檢測機制,比如算某個比率,如果分子的數據到了消息總線后,以某個時間字段為準線向前掃描一個時間段的分母,如果沒有找到,則等待一個時間段,在這個時間段內探聽分母的數據流。反之對分母亦然。
2.2大數據風控體系建設
在開發的大數據風控體系中,主要由三部分構成分別為操作日志收集系統、設備指紋系統、風控決策系統。
2.2.1操作日志收集系統
所謂操作日志收集就是在客戶使用系統的過程中,收集用戶的操作信息,用來跟蹤應用使用的狀況,后續用來進一步優化產品或是提供運營的數據支撐,包括訪問數(Visits),訪客數(Visitor),停留時長(TimeOnSite),頁面瀏覽數(PageViews)和跳出率(BounceRate)。這樣的信息收集可以大致分為兩種:頁面統計(trackthisvirtualpageview),統計操作行為(trackthisbuttonbyanevent)。操作日志數據是用戶行為數據,具有實時性,數據質量較高,是風控系統重要數據來源之一。這些數據可粗可細,從龐雜的數據背后挖掘、分析用戶的行為習慣和喜好,壞人的異常行為,正是大數據風控的價值。App采集到數據后,需要通過實時etl和實時計算組件,加工成業務需要的指標,然后在與其他數據合并或者直接使用。這個項目面臨的主要問題:(1)數據量大:這里的數據量是指瞬間的數據流量大,目前每天的日志增量數據達到1T;(2)數據容易丟失:數據依賴網絡上傳,采集的數據遇到網絡不通或者信號較弱時,數據就會丟失,造成不必要的損失;(3)采集環境復雜:采集端有原生界面也有H5界面,這兩種頁面的編程方式和獲取數據的內容完全不同;第一點,在數據量大的情況下,減少服務提供的功能,在簡化暴露給采集端的服務,只有接受數據的功能,同時引入消息總線,消息總線引入后,加大系統的并發和TPS,在消費端接入消息,加重消費端功能。這個思想也與目前小前端、大中臺的想法一致。而且消息總線的引入也實時打通了行為數據和業務數據,為風控和營銷提供了有力支撐。第二點,在采集端增加緩存,當出現網絡或者其他問題時,采集的數據進入緩存,待網絡環境變好后,系統會自動上傳緩存中的數據。第三點,統一定義公共數據字段還有自定義字段,公共字段是指無論原生頁面還是H5頁面都必須上傳的,自定義字段是指只能在原生頁面或者H5頁面采集的字段。APP需要提供接口提供給H5調用,然后統一上傳。這樣的好處是數據格式統一,為數據用戶方提供便捷。同時也減輕不必要的數據處理工作,減少后臺計算成本。
2.2.2設備指紋系統
簡單來講,設備指紋是指由某個公司定義用來唯一標識該設備的ID,也可以說設備指紋就是設備的身份證號。在風管技術實踐中,設備指紋已經成為了基礎技術。因為在互聯網環境下,真人的身份和操作者的身份可能存在完全不匹配的情況,因而身份不確定性是互聯網欺詐分子的根本支撐,在無法識別操作用戶的情況下,想辦法從各類設備著手,識別可疑上網行為,盡快發現與設備關聯的異常操作,并對其做出反應。通常來說設備指紋包括若干個固有的、較難篡改的、唯一的設備標識。比如每臺移動設備在生產出廠后,都會生成一個硬件ID,比如手機在生產過程中都會被賦予一個唯一的IMEI(InternationalMobileEquipmentIdentity)編號,用于唯一標識該臺設備。在比如電腦的網卡,在生產過程中會被賦予唯一的MAC地址。這些設備唯一的標識符就可以將其視為設備指紋。通常情況下,只需簡單的獲取這些字段即可。但是欺詐分子在一些工具的幫助下,可以隨意修改手機參數,造成原本穩定的數據變的不再穩定。如何保證數據穩定是設備指紋的最大問題,即在用戶修改了手機底層數據后,還能識別出來是相同的設備。為此通過分析海量的多維度數據得出一些可靠結論,這些數據包括操作日志、設備日志等,我使用的模型包括尋找余弦相似度和設備分來解決穩定性問題。
2.2.3風控決策系統
風控決策系統是展現給用戶的終端系統,但是在這個系統的后面運行這大量的模型支撐風控體系的運行。眾所周知,在大數據風控體系下存在著各種維度的數據,從行為、交易、設備、位置等,這些數據也是風控模型的入參,風控通常使用的包括隨機森林、邏輯回歸、GBDT等模型。客戶進入系統借款時,風控決策系統會對其操作和各類信息進行判斷,決定其是否可以進入授信環境,當判斷沒有問題后。便會對其進行額度評估并給出其合適的額度。在這一過程中,規則引擎是核心環節,鑒于當前業務發展的實際情況,必須是實施部署、實時生效,并且操作友好。引入了drools為基礎,并在此基礎上做了深度定制。目前這套引擎在生產系統中起到重要作用,每天經受了高達幾千萬次的調用。
3踐行成果
通過對上述系統的實施,嘉銀金科已經初步建立以大數據為核心的風控體系,圍繞著這套體系,已經建立起兩套不同性質的風控系統:智能反欺詐系統:該系統目前承擔身份欺詐、交易安全、賬戶安全等功能,它的定位是會員準入,只有通過該系統的認證,才能有資格進入授信環節。目前該系統平均每天的調用量高達數百萬次,目前系統的各項性能指標均滿足之前的設計要求,未來該系統還將繼續擴容,交給B端客戶使用,形成真正意義上的Saas系統。智能風控系統:該系統主要承擔授信功能,通過反欺詐系統的認證后,即可進入系統,該系統主要與大數據的風控集市和實時計算交互,通過機器學習模型、評分卡等功能對借款用戶進行授信,整個過程最長在3秒內完成。
4結論
通過這些系統的建設,嘉銀金科在金融科技領域已經慢慢擠入主流金融科技系統服務商,截止2019年12月,風控每天在為十幾萬C端客戶提供服務,并且還有幾十家B端客戶在使用這款產品,包括銀行、農信社等。為行業的發展提供了有益的嘗試。
作者:方昊 單位:上海你我貸互聯網金融信息服務有限公司