前言:本站為你精心整理了大數(shù)據(jù)風控技術在互聯(lián)網(wǎng)金融的實踐范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
摘要:隨著互聯(lián)網(wǎng)技術與金融業(yè)務的融合發(fā)展,當前金融欺詐呈現(xiàn)出“專業(yè)化”、“集團化”,導致企業(yè)在風險處置上花費較多的成本;此時大數(shù)據(jù)風控技術應運而生,該技術就是利用結(jié)構化數(shù)據(jù)、半結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù),通過數(shù)據(jù)采集、實時\非實時數(shù)據(jù)加工等技術手段,結(jié)合各類風控模型,識別出風險客戶,從而降低企業(yè)運營成本。經(jīng)過艱苦的開發(fā),系統(tǒng)已經(jīng)建立起以實時\非實時數(shù)據(jù)集市為基礎,數(shù)據(jù)采集和為依靠,規(guī)則引擎為載體的體系,有效降低各類風險的沖擊。
關鍵詞:數(shù)據(jù)采集;實時計算;規(guī)則引擎;大數(shù)據(jù)處理
金融科技(fintech)在最近幾年發(fā)展的風生水起,以螞蟻金服為代表的互聯(lián)網(wǎng)企業(yè)和以興業(yè)數(shù)金為代表的銀行系科技集團均涉及其中。金融的核心問題之一便是風險控制,所以當前眾多科技企業(yè)對外服務的核心都是大數(shù)據(jù)風控系統(tǒng)。
1系統(tǒng)設計思想
如今大量的金融機構服務的客戶,特別是C端客戶,不再是28理論中20%的優(yōu)質(zhì)客戶,這些客戶主要被銀行甚至更加高端的私人銀行壟斷。因而他們的主要服務對象是80%的用戶。如何從這些客戶中篩選出優(yōu)質(zhì)客戶,是這些金融機構面對的難題。如果僅僅依靠傳統(tǒng)的風控系統(tǒng),會面臨審批周期長、拒貸率高、人工成本高等問題。在開發(fā)這套系統(tǒng)之前,我們隨機從目標客戶中抽取了一些樣本,建立了借款客戶的用戶畫像。從畫像特征中了解到他們的主要特征是金額小、頻次高、借款時間短、放款審批周期短。而這些特征也印證了對上述問題的判斷。相較于傳統(tǒng)風控系統(tǒng)而言,大數(shù)據(jù)風控系統(tǒng)強調(diào)的重心在于大數(shù)據(jù)和風控系統(tǒng)。傳統(tǒng)風控系統(tǒng)主要是基于客戶的收入水平、所在行業(yè)、負債水平建立評分卡,從而確認該客戶的風險水平,所以從這方面來看,傳統(tǒng)風控系統(tǒng)用的數(shù)據(jù)只是側(cè)重反應了某一方面的狀況。而大數(shù)據(jù)風控系統(tǒng)則是利用圖像、社交活動數(shù)據(jù)、行為軌跡、地理位置等數(shù)據(jù)全方位評估用戶的風險水平,規(guī)避傳統(tǒng)風控系統(tǒng)的問題。任何事物都會呈現(xiàn)兩面性,隨著系統(tǒng)的投入使用數(shù)據(jù)會呈現(xiàn)出爆發(fā)式增長,并且還會出現(xiàn)數(shù)據(jù)變動快、系統(tǒng)效率變慢的問題。但是隨著金融機構業(yè)務的發(fā)展,又對風控系統(tǒng)提出了高并發(fā)、高響應、操作簡單、海量存儲等更苛刻的要求。使用傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不在適應行業(yè)的要求。因而必須要對系統(tǒng)做合理地切分,并且使用更新的技術方法來制作。從系統(tǒng)面對場景上來看,大數(shù)據(jù)風控系統(tǒng)不僅僅是要與信用風險做斗爭,同時還要盡量支持更多場景,比如:羊毛黨、支付欺詐等,不僅如此,新的系統(tǒng)還要監(jiān)控流程中各個環(huán)節(jié),從而達到盡早發(fā)現(xiàn)、盡早防控的目的。因此大數(shù)據(jù)風控系統(tǒng),已經(jīng)不再是一個系統(tǒng),而是由若干個系統(tǒng)組成的系統(tǒng)集群,通過該集群的合力工作,幫助用戶快速提升業(yè)績。
2大數(shù)據(jù)平臺及大數(shù)據(jù)風控體系建設
針對上述的設計思想,本文將以嘉銀金科的反欺詐系統(tǒng)構建為例展開探討。目前嘉銀金科的增量數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長,增量單位為T,這些數(shù)據(jù)主要是包括行為日志、業(yè)務日志、各類json和XML文件、照片、活體認證資料等,從數(shù)據(jù)形態(tài)上又可分為結(jié)構化數(shù)據(jù)、半結(jié)構化數(shù)據(jù)和非結(jié)構話數(shù)據(jù),從業(yè)務屬性上將其劃分成若干個數(shù)據(jù)集市,比如:訂單數(shù)據(jù)、支付數(shù)據(jù)、用戶屬性數(shù)據(jù)等。先將數(shù)據(jù)分為實時和非實時,實時數(shù)據(jù)又區(qū)分為分鐘、小時、天3個范圍,因為在實際的風控業(yè)務中,實時計算結(jié)合歷史數(shù)據(jù)的計算占據(jù)了大量的場景。
2.1大數(shù)據(jù)平臺建設
在數(shù)據(jù)體系建立中,需要將數(shù)據(jù)分層,目前主要將數(shù)據(jù)分為三層,分別是數(shù)據(jù)采集和整理層、數(shù)據(jù)建模層、數(shù)據(jù)應用層。
2.1.1數(shù)據(jù)采集和整理層
在該層中存放各種類型的原始數(shù)據(jù)和預處理數(shù)據(jù),包括數(shù)據(jù)庫數(shù)據(jù)、Nosql數(shù)據(jù)、半結(jié)構化數(shù)據(jù)、各類日志等,每天系統(tǒng)會根據(jù)設定的任務,自動從目標系統(tǒng)中抽取數(shù)據(jù),目標系統(tǒng)包括各類業(yè)務系統(tǒng)、日志系統(tǒng)、交易臺賬等,抽取好數(shù)據(jù)后會直接進入該層的數(shù)據(jù)庫。再抽取完成后,系統(tǒng)便會根據(jù)ETL腳本的邏輯關系,選擇需要啟動的腳本,將rawdata轉(zhuǎn)化為productdata。離線批處理采用的是Hadoop分布式存儲+分布式運算的框架,可以對海量數(shù)據(jù)進行統(tǒng)計分析,解決單節(jié)點極限性。目前選用的是Mapreduce/Spark混合架構,主要是因為spark主要在內(nèi)存中處理數(shù)據(jù)成本較高。數(shù)據(jù)采集和集成工具使用的組件是StreamSets。
2.1.2數(shù)據(jù)建模層
該層數(shù)據(jù)是存儲可用于直接用于生產(chǎn)系統(tǒng)的數(shù)據(jù),是經(jīng)過數(shù)據(jù)清洗過后的干凈數(shù)據(jù)。主要以業(yè)務標簽數(shù)據(jù)、會員畫像、設備畫像等。在該層中數(shù)據(jù)將會深度介入業(yè)務,根據(jù)需求將數(shù)據(jù)切分為多個數(shù)據(jù)集市,助力業(yè)務發(fā)展。目前這些數(shù)據(jù)的主要為風控、推薦、精準營銷等業(yè)務線的深度學習模型、業(yè)務分析、數(shù)據(jù)服務接口等功能服務;在該數(shù)據(jù)層中,數(shù)據(jù)分析人員使用python\R\SAS等工具對數(shù)據(jù)建模,為下一步的數(shù)據(jù)應用提供支撐。
2.1.3數(shù)據(jù)應用層
根據(jù)業(yè)務線特點,將數(shù)據(jù)區(qū)分成適用于不同業(yè)務的數(shù)據(jù)應用產(chǎn)品,該層也存儲報表、數(shù)據(jù)分析報告等產(chǎn)品的數(shù)據(jù);該層數(shù)據(jù)在應用中典型的應用場景包括:數(shù)據(jù)大屏、BI系統(tǒng)等。在這里重點介紹風控體系的數(shù)據(jù)建設,風控體系數(shù)據(jù)包括了貸前、貸中、貸后,這三類數(shù)據(jù)全部融入在上述所說的體系中,其中貸前數(shù)據(jù)用于檢測可能的異常行為,并在借款之前將其拒絕;貸中數(shù)據(jù)用于在借款過程中的各類模型即風險評估;貸后數(shù)據(jù)用于驗證各類模型的效果,并及時提高模型的準確度。同樣還需要注意的是離線批處理功能和實時計算功能并不是集中在某個數(shù)據(jù)層中,每一層都會涉及。下面將重點闡述下實時計算功能,從目前的實際需求來看,有大量的實時計算需求,比如監(jiān)控、統(tǒng)計。而在這些計算需求中主要是各類匯總計算包括聚合計算、排序等,更為麻煩的是這些計算邏輯需要將熱數(shù)據(jù)、溫數(shù)據(jù)和冷數(shù)據(jù)加總。為此在設計指標數(shù)據(jù)結(jié)構必須要考慮一致。計算結(jié)果會根據(jù)實際用途存放在不同的地方,實時存儲在redis/hbase,批處理方式的結(jié)果存儲在hive中。系統(tǒng)是從消息總線來獲取實時數(shù)據(jù),結(jié)合批處理的計算結(jié)果,通過約定好各類ID將實時數(shù)據(jù)結(jié)果和批處理結(jié)果放在一起做后續(xù)的匯總計算,最終的匯總計算也是放在實時計算里實現(xiàn)。目前使用的實時計算工具是flink+kafka,計算邏輯是ksql定制。批處理的結(jié)果是從hive中查詢,一旦查詢?nèi)蝿者^多,單機是無法承受的。這就需要引入分布式技術來分攤查詢?nèi)蝿?,本系統(tǒng)中引入的組件是springcloud但是在實際開發(fā)過程中,往往會有細致的問題,目前系統(tǒng)中遇到的最多的兩個問題是:(1)線程計算任務分問題,在分布式計算過程中,每個計算任務消耗的資源和時間是不同的,有主機的任務較為繁忙,有些則空閑,所以還需對各個線程做監(jiān)控,并實時調(diào)度,我的思路是在系統(tǒng)中加入一個類似通知欄功能,里面記錄計算的任務數(shù),已經(jīng)完成的任務數(shù),消耗時間等內(nèi)容,當一個任務計算完成后告知通知欄。(2)時序問題,實時計算過程中,使用的數(shù)據(jù)源是數(shù)據(jù)流,在實時計算過程中,可能會涉及雙流計算甚至更多的流。由于網(wǎng)絡等其他問題,數(shù)據(jù)流到達消息總線的順序可能和預想的不一樣,如果不考慮著這種問題,那么會引起很多錯誤導致系統(tǒng)故障。對此,我的解決方案是:引入互相檢測機制,比如算某個比率,如果分子的數(shù)據(jù)到了消息總線后,以某個時間字段為準線向前掃描一個時間段的分母,如果沒有找到,則等待一個時間段,在這個時間段內(nèi)探聽分母的數(shù)據(jù)流。反之對分母亦然。
2.2大數(shù)據(jù)風控體系建設
在開發(fā)的大數(shù)據(jù)風控體系中,主要由三部分構成分別為操作日志收集系統(tǒng)、設備指紋系統(tǒng)、風控決策系統(tǒng)。
2.2.1操作日志收集系統(tǒng)
所謂操作日志收集就是在客戶使用系統(tǒng)的過程中,收集用戶的操作信息,用來跟蹤應用使用的狀況,后續(xù)用來進一步優(yōu)化產(chǎn)品或是提供運營的數(shù)據(jù)支撐,包括訪問數(shù)(Visits),訪客數(shù)(Visitor),停留時長(TimeOnSite),頁面瀏覽數(shù)(PageViews)和跳出率(BounceRate)。這樣的信息收集可以大致分為兩種:頁面統(tǒng)計(trackthisvirtualpageview),統(tǒng)計操作行為(trackthisbuttonbyanevent)。操作日志數(shù)據(jù)是用戶行為數(shù)據(jù),具有實時性,數(shù)據(jù)質(zhì)量較高,是風控系統(tǒng)重要數(shù)據(jù)來源之一。這些數(shù)據(jù)可粗可細,從龐雜的數(shù)據(jù)背后挖掘、分析用戶的行為習慣和喜好,壞人的異常行為,正是大數(shù)據(jù)風控的價值。App采集到數(shù)據(jù)后,需要通過實時etl和實時計算組件,加工成業(yè)務需要的指標,然后在與其他數(shù)據(jù)合并或者直接使用。這個項目面臨的主要問題:(1)數(shù)據(jù)量大:這里的數(shù)據(jù)量是指瞬間的數(shù)據(jù)流量大,目前每天的日志增量數(shù)據(jù)達到1T;(2)數(shù)據(jù)容易丟失:數(shù)據(jù)依賴網(wǎng)絡上傳,采集的數(shù)據(jù)遇到網(wǎng)絡不通或者信號較弱時,數(shù)據(jù)就會丟失,造成不必要的損失;(3)采集環(huán)境復雜:采集端有原生界面也有H5界面,這兩種頁面的編程方式和獲取數(shù)據(jù)的內(nèi)容完全不同;第一點,在數(shù)據(jù)量大的情況下,減少服務提供的功能,在簡化暴露給采集端的服務,只有接受數(shù)據(jù)的功能,同時引入消息總線,消息總線引入后,加大系統(tǒng)的并發(fā)和TPS,在消費端接入消息,加重消費端功能。這個思想也與目前小前端、大中臺的想法一致。而且消息總線的引入也實時打通了行為數(shù)據(jù)和業(yè)務數(shù)據(jù),為風控和營銷提供了有力支撐。第二點,在采集端增加緩存,當出現(xiàn)網(wǎng)絡或者其他問題時,采集的數(shù)據(jù)進入緩存,待網(wǎng)絡環(huán)境變好后,系統(tǒng)會自動上傳緩存中的數(shù)據(jù)。第三點,統(tǒng)一定義公共數(shù)據(jù)字段還有自定義字段,公共字段是指無論原生頁面還是H5頁面都必須上傳的,自定義字段是指只能在原生頁面或者H5頁面采集的字段。APP需要提供接口提供給H5調(diào)用,然后統(tǒng)一上傳。這樣的好處是數(shù)據(jù)格式統(tǒng)一,為數(shù)據(jù)用戶方提供便捷。同時也減輕不必要的數(shù)據(jù)處理工作,減少后臺計算成本。
2.2.2設備指紋系統(tǒng)
簡單來講,設備指紋是指由某個公司定義用來唯一標識該設備的ID,也可以說設備指紋就是設備的身份證號。在風管技術實踐中,設備指紋已經(jīng)成為了基礎技術。因為在互聯(lián)網(wǎng)環(huán)境下,真人的身份和操作者的身份可能存在完全不匹配的情況,因而身份不確定性是互聯(lián)網(wǎng)欺詐分子的根本支撐,在無法識別操作用戶的情況下,想辦法從各類設備著手,識別可疑上網(wǎng)行為,盡快發(fā)現(xiàn)與設備關聯(lián)的異常操作,并對其做出反應。通常來說設備指紋包括若干個固有的、較難篡改的、唯一的設備標識。比如每臺移動設備在生產(chǎn)出廠后,都會生成一個硬件ID,比如手機在生產(chǎn)過程中都會被賦予一個唯一的IMEI(InternationalMobileEquipmentIdentity)編號,用于唯一標識該臺設備。在比如電腦的網(wǎng)卡,在生產(chǎn)過程中會被賦予唯一的MAC地址。這些設備唯一的標識符就可以將其視為設備指紋。通常情況下,只需簡單的獲取這些字段即可。但是欺詐分子在一些工具的幫助下,可以隨意修改手機參數(shù),造成原本穩(wěn)定的數(shù)據(jù)變的不再穩(wěn)定。如何保證數(shù)據(jù)穩(wěn)定是設備指紋的最大問題,即在用戶修改了手機底層數(shù)據(jù)后,還能識別出來是相同的設備。為此通過分析海量的多維度數(shù)據(jù)得出一些可靠結(jié)論,這些數(shù)據(jù)包括操作日志、設備日志等,我使用的模型包括尋找余弦相似度和設備分來解決穩(wěn)定性問題。
2.2.3風控決策系統(tǒng)
風控決策系統(tǒng)是展現(xiàn)給用戶的終端系統(tǒng),但是在這個系統(tǒng)的后面運行這大量的模型支撐風控體系的運行。眾所周知,在大數(shù)據(jù)風控體系下存在著各種維度的數(shù)據(jù),從行為、交易、設備、位置等,這些數(shù)據(jù)也是風控模型的入?yún)?,風控通常使用的包括隨機森林、邏輯回歸、GBDT等模型。客戶進入系統(tǒng)借款時,風控決策系統(tǒng)會對其操作和各類信息進行判斷,決定其是否可以進入授信環(huán)境,當判斷沒有問題后。便會對其進行額度評估并給出其合適的額度。在這一過程中,規(guī)則引擎是核心環(huán)節(jié),鑒于當前業(yè)務發(fā)展的實際情況,必須是實施部署、實時生效,并且操作友好。引入了drools為基礎,并在此基礎上做了深度定制。目前這套引擎在生產(chǎn)系統(tǒng)中起到重要作用,每天經(jīng)受了高達幾千萬次的調(diào)用。
3踐行成果
通過對上述系統(tǒng)的實施,嘉銀金科已經(jīng)初步建立以大數(shù)據(jù)為核心的風控體系,圍繞著這套體系,已經(jīng)建立起兩套不同性質(zhì)的風控系統(tǒng):智能反欺詐系統(tǒng):該系統(tǒng)目前承擔身份欺詐、交易安全、賬戶安全等功能,它的定位是會員準入,只有通過該系統(tǒng)的認證,才能有資格進入授信環(huán)節(jié)。目前該系統(tǒng)平均每天的調(diào)用量高達數(shù)百萬次,目前系統(tǒng)的各項性能指標均滿足之前的設計要求,未來該系統(tǒng)還將繼續(xù)擴容,交給B端客戶使用,形成真正意義上的Saas系統(tǒng)。智能風控系統(tǒng):該系統(tǒng)主要承擔授信功能,通過反欺詐系統(tǒng)的認證后,即可進入系統(tǒng),該系統(tǒng)主要與大數(shù)據(jù)的風控集市和實時計算交互,通過機器學習模型、評分卡等功能對借款用戶進行授信,整個過程最長在3秒內(nèi)完成。
4結(jié)論
通過這些系統(tǒng)的建設,嘉銀金科在金融科技領域已經(jīng)慢慢擠入主流金融科技系統(tǒng)服務商,截止2019年12月,風控每天在為十幾萬C端客戶提供服務,并且還有幾十家B端客戶在使用這款產(chǎn)品,包括銀行、農(nóng)信社等。為行業(yè)的發(fā)展提供了有益的嘗試。
作者:方昊 單位:上海你我貸互聯(lián)網(wǎng)金融信息服務有限公司
數(shù)據(jù)報告 數(shù)據(jù)采集論文 數(shù)據(jù)安全論文 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計論文 數(shù)據(jù)挖掘 數(shù)據(jù)理論論文 數(shù)據(jù)通信論文 紀律教育問題 新時代教育價值觀