選單

李宗純:圖機器學習在度小滿風控中的應用

李宗純:圖機器學習在度小滿風控中的應用

分享嘉賓:李宗純 度小滿 AI產品經理

編輯整理

:高倩 重慶理工大學

出品平臺:DataFunTalk

導讀:

本文主要介紹度小滿的超大規模圖平臺,以及它在真實金融風控業務中的應用。

其中會包括一些應用方法和案例,希望能為大家在圖機器學習落地產品化方面提供一些參考。

今天的分享主要有以下四部分:

相關背景介紹

度小滿超大規模圖平臺 Dxm Eros 功能

Dxm Eros 應用

總結與展望

01

相關背景介紹

1。 金融科技發展趨勢

李宗純:圖機器學習在度小滿風控中的應用

金融科技發展趨勢可以分成以下三個階段:

第一階段:金融資訊化階段(1986年之前)

金融行業完成初步資訊化,透過傳統IT技術實現辦公電子化,自動化的過程。

第二階段:網際網路金融階段(1987年-2009年)

網際網路大規模擴張,市場上萌生大量資訊科技公司,透過網際網路實現資訊收集、共享和業務融合,實現金融業務的互聯互通。

第三階段:金融科技深度融合階段(2010年至今)

大資料、雲計算、人工智慧及區塊鏈等新技術為傳統金融帶來了變革,催生了新的金融行為。比如大資料徵信以及智慧風控等。

2。 金融風控技術演進

李宗純:圖機器學習在度小滿風控中的應用

常見的金融風險大致可分為兩個型別:可防可控風險,難防難控風險。比如使用者違約風險,以及使用者收入降低導致購買力下降風險,我們統稱信用風險。黑產,中介,團伙欺詐等屬於欺詐風險。信用風險,欺詐風險以及操作風險,這些都是可以透過各類的不同等級的金融風控技術來極大程度地降低的。

金融風控技術的演進可以基於所需要處理的資料的維度而抽象成從點到線再到面:是從人工稽核到規則,到演算法模型再到圖譜;對應的技術分別是從資料分析到機器學習再到知識圖譜。過程如下:

第一階段-稽核

:主要依賴對資訊的人工稽核。但身份證、手機號碼、銀行流水等材料的偽造成本很低,金融機構需投入大量人力稽核資訊主體的身份及材料的真實性

第二階段-規則

:基於資料分析而制定的各種策略和規則:透過收集大量多樣化的資料,如第三方資訊等對資訊的真實性進行交叉驗證。比傳統的人工稽核具有更強的反欺詐能力。但由於資料來源多、規模日益龐大,如何整合多元異構資料來源,利用已有資料交叉驗證成為新挑戰

第三階段-模型

:用機器學習模型,將多源異構的大資料整合成機器可以理解的知識,透過機器學習模型來判斷節點的好與壞

第四階段-知識圖譜

:將單點身份和單條鏈路的資料轉換成對於面的形式的風險檢測,不僅關注節點個體本身,而是更加關注個體之間的關係,從而實現欺詐的識別和防禦。

3。 圖在金融風控領域應用

李宗純:圖機器學習在度小滿風控中的應用

在傳統的金融企業中,圖技術並沒有被大規模的應用。這些企業仍然使用了關係型資料去進行資料儲存,進行的風控也僅僅從個體本身來出發去分析個體之間的差異。但由於資訊偽造成本極低,導致欺詐風險的欺詐行為高發且難防。其實,他們所擁有的這些資料隱含著海量的挖掘價值,而傳統的金融企業卻無從下手,所以越來越多的金融科技公司開始著手對圖技術進行研究與應用,使用圖資料庫去儲存資料,並且利用圖分析演算法來甄別團伙欺詐行為,這就極大程度地提高了資料儲存和資料探勘的能力,也可以為金融風控業務提供實時有效的風險資訊。

02

Dxm Eros 功能

1。 圖平臺 Eros 框架

李宗純:圖機器學習在度小滿風控中的應用

上圖是度小滿超大規模圖平臺Eros的框架示意圖。

底層基礎設施

:海量的關聯資料池,異構計算叢集資源,大規模高效能資料庫。

圖資料庫

:儲存各類的關係型的資料,如企業和人和證件間的關係等。

平臺能力

:滿足各方向使用者不同的應用需求和應用場景下的風控圖視覺化平臺、資料融合實驗平臺、可調整模型結構的快速塗模型實驗的平臺、基礎演算法模型庫(經典的圖演算法圖模型、自研的圖模型等)。

Eros平臺主要應用在金融信貸的全鏈路場景當中,從一開始的智慧獲客到智慧反欺詐,智慧風控和貸後稽核等。

2。 圖儲存模組

李宗純:圖機器學習在度小滿風控中的應用

圖資料庫用於資料儲存管理,主要就是將非結構化資料儲存並管理起來。在傳統的關係型資料庫當中,資料關聯非常不直觀,比如對於使用者提交的資料的儲存,往往需要透過使用者表、進件表、企業表等多個對映的表單來進行儲存,最後用了很多個關係表來代表一個非常簡單的資料結構,這很難適應圖模型的訓練和查詢的要求。相較於關係型資料庫,圖資料庫是對關係型資料庫功能的拓展,它真正關注的是個體與個體之間的關係,它的結構是由頂點和邊所組成的,它支援的圖結構也更加靈活。度小滿的圖資料庫主要具備以下幾點優勢:

儲存規模

:支援千億節點千億邊的超大圖儲存,具有可擴充套件可伸縮的儲存和計算能力;

高效能

:毫秒級響應,二度查詢50ms以下,可以說是業界比較領先的一個水平;

查詢分析一體化

:同時支援同查詢和圖分析演算法;

簡單易用的一站式圖平臺

:良好的視覺化介面,助力使用者快速查詢。

3。 圖分析模組

李宗純:圖機器學習在度小滿風控中的應用

第二個模組是圖分析演算法模組。度小滿的Eros平臺上支援了各類的圖分析演算法以及圖表式學習演算法,除了一些頂點類,路徑類以及社團類的經典的圖分析和圖表示學習演算法,還有根據最新的研究成果支援的圖模型和圖演算法,以及自研的演算法。例如,對於圖分析演算法,我們可以將其按照頂點、邊、社團來進行劃分,分別支援各類圖分析演算法。對於圖表示學習,也支援基於因子分解、隨機遊走和深度學習等方法的圖演算法。

4。 圖建模

李宗純:圖機器學習在度小滿風控中的應用

第三個模組是圖建模。由於很多圖模型演算法比較新,利用圖技術來進行建模有一定的門檻,而很多資料科學家也希望能夠應用我們圖模型產生的資料、應用我們圖模型的能力。所以我們為他們打造了一個自動圖建模功能-AutoGraph。AutoGraph可以在無人工參與的情況下,自動生產直推式圖結構嵌入特徵,並透過增量式訓練和異構圖演算法支援,增加對最新資料和複雜圖資料的覆蓋。AutoGraph可以提供端到端的自動圖建模能力,彌補技術與業務之間的壁壘,讓不懂技術的同學也可以利用圖技術建模,從而應用在貸前貸中風控模型中和貸後催收與稽核中。

5。 視覺化模組

李宗純:圖機器學習在度小滿風控中的應用

最後一個模組圖平臺視覺化模組。左圖是從平臺上擷取的一個圖的layout。除了在宏觀上檢視一個圖網路結構、點邊分佈和統計資訊之外,還為使用者提供了微觀分析功能,如圖N度鄰居查詢、關鍵資訊展示、基於條件的過濾與統計功能等,可以輔助業務分析。同時,也包含基礎的圖管理功能:

圖匯入匯出:使用者可以自定義要匯入的資料、任務的啟停時間和週期等;也可以從異構大圖中匯出子圖;

例項監控管理:檢視資料分佈以及健康性;

訓練管理:選擇模型和資料進行訓練。

除此之外,還從節點、路徑、社團不同級別分別提供了視覺化功能,滿足各類使用者的使用需求。比如可疑節點分析、關係視覺化、路徑標記和社團發現等,可以分別應用於反欺詐、稽核、反洗錢等環節。

03

Dxm Eros 應用

李宗純:圖機器學習在度小滿風控中的應用

作為一個產品,它的設計是從使用者需求出發的。作為一站式超大規模的圖平臺,它的應用可以從貸前到貸中一直貫穿到貸後整個流程,所以它的使用者也可以覆蓋到演算法、策略、信審以及反洗錢等不同角色不同團隊。對於不同團隊,不同人群,他們的應用場景和應用需求,產品的設計需要側重不同方面。

對於

演算法

同學,他們更多的使用場景是圖建模,圖挖掘。他們更關心的是快速的進行圖實驗,並且快速、直觀的得到實驗結果。所以我們的產品就可以為其提供自動的資料預處理,自動的特徵工程,自動建模調參,自動部署上線等功能。

對於

策略

的同學,他們使用這個平臺做反欺詐分析,所以他們希望能夠在這個平臺查詢某一個節點的風險是怎樣的一個等級。為他們提供的是可疑節點標記和可疑社團標記。

對於

信審

稽核同學,他們既往的稽核工作往往是透過在網際網路各種平臺上進行多個輪次的搜尋,過程繁瑣且不直觀。所以圖平臺主要是提升他們的工作效率,使他們查詢和稽核的過程更加快速,更加直觀,更加便捷。為他們提供的功能包括人企關聯查詢,企業風險提示和特殊關係提示等;

對於

反洗錢

團隊,我們希望為他們在追蹤資金鍊路以及關鍵節點當中提供一些幫助,輔助他們的工作提升效率。所以也相應的為他們推關鍵路徑分析和關鍵節點識別的一些功能。

1。 智慧圖挖掘

智慧圖挖掘方便演算法同學快速地進行各類實驗並且檢視結果這個功能,只需要使用者選擇需要使用的資料,就可以自動實現圖挖掘。這賦能了很多不熟悉技術,不熟悉演算法的同學,讓他們也可以將圖模型應用到業務上。要做到智慧圖建模圖挖掘,只需要這裡所展示的五個步驟:

李宗純:圖機器學習在度小滿風控中的應用

Step1:資料整合/建立資料集

這個步驟實現了從原始的raw-data到資料整合,資料壓縮以及最後訓練使用的二進位制檔案生產的全流程。對使用者來說只需要填入不同月份的XY即可,無需關注和圖相關的任何細節。在資料階段支援使用額外的填充特徵來豐富資料圖的資訊量,提升模型訓練效果。

Step2:自定義模型與訓練指令碼

針對不同技術背景,不同層級的使用者推出了兩種不同方案。對於一些不太關心或者不熟悉最新圖模型使用者,他們可以直接選擇系統內已經有的模型,對於演算法專家,他們可以自定義上傳他們所需要訓練的模型。在這一個步驟,平臺也支援不同的模型和不同訓練指令碼的任意組合,靈活度非常高。

Step3&4:一鍵訓練&調優

平臺支援一鍵訓練,使用者可以自己手動設定這些關鍵引數,也可以直接使用平臺已經內建好的一個Auto模式一鍵訓練模型平臺。在這個過程當中,會根據既往的一些經驗和策略,自動的選擇合適的模型,也可以自動地根據規模去調整執行申請的資源量,模型訓練好後,也會進一步進行自動調優,使模型調到最優。

Step5:一鍵產出OOT打分

使用者只需要配置他們所需要打分的月份或資料,就可以一鍵產出打分結果。

下面是智慧圖挖掘的兩個案例。

案例一:徵信資料

李宗純:圖機器學習在度小滿風控中的應用

基於徵信資料的圖模型充分挖掘了使用者在空間、時間上的特徵,以及使用者和企業之間的關聯關係,其中使用者節點有10億+,包含了使用者的基礎風險特徵,徵信風險特徵等;還包括了一些公司節點和位置節點。區別於傳統的關聯網路,圖神經網路是基於異構圖以及全網使用者的實時更新的風險特徵屬性來建立的一個端到端的深度實時模型,而傳統的關聯網路往往只是依賴於節點之間關聯的緊密程度。智慧圖挖掘幫助我們在複雜的模型自動地尋找高階高階的組合特徵,而不僅僅是依賴於專家的一些經驗來加工有限的特徵。

案例二:風控模型

李宗純:圖機器學習在度小滿風控中的應用

基於風控資料的圖子模型,這個模型適用於信貸風險分析,判斷使用者的風險。模型引入了實體和實體的關係,包括人和人、人和公司之間的關係等。具有12億頂點和80億邊,其中每個人又選擇了94維以徵信為主的特徵。這個模型的網路結構設計了雙層的GraphSAGE和GAT融合的模型。利用智慧圖挖掘的功能之後,整體的模型效果對於風控的AB卡有1%以上的效果提升。

2。 智慧反欺詐

李宗純:圖機器學習在度小滿風控中的應用

面向策略同學所打造的智慧反欺詐功能,主要包含了圖視覺化和圖分析功能。當用戶輸入需要查詢的節點資訊後,可以基於過濾條件自定義查詢相關節點以及關係資訊。在這個圖視覺化的區域,會呈現宏觀上的資訊,如這個節點所處的社團的點邊分佈等,除此之外還會再細粒度地展示出部分關鍵資訊,這個關鍵資訊可以輔助策略進行一些反欺詐分析。這些關鍵資訊包括社團當中的各個節點的分層資訊、社團總申請數量、社團組總欺詐率、違約率等。

李宗純:圖機器學習在度小滿風控中的應用

除了上述的統計資訊之外,我們也基於一致性檢驗技術,社團發現的技術,為策略同學提供了一鍵式的風險檢測功能。這個功能可以同時檢測個人欺詐和團購團伙欺詐。

對於個人欺詐行為,我們透過度中心性、緊密中心性、介數中心度及特徵向量中心等指標,分析各節點的資訊度量,判定與其關聯的人是否存在於黑名單中,或是根據一致性分析判斷三角關係是否成立,來為其欺詐風險進行分級。

與個人欺詐行為相比,團伙欺詐事件發生的頻率更高,團伙往往具有明確的分工和計劃,熟悉目標平臺的各項業務流程,欺詐手段是非常複雜且多變的。對於團伙欺詐,我們的平臺主要是提供對關鍵節點、關鍵路徑和關鍵社群發現和標記的功能。

關鍵節點

:星狀節點。金融領域較為常見的一個羊毛黨的網路結構,它極有可能是一個人透過群控很多人從而實現團伙欺詐。

關鍵路徑

:鏈狀路徑。團伙欺詐時為了節省成本,往往多數人共用一套身份資訊(如身份證、手機號、住址、聯絡人等);一個節點連線多個社群且社群內人群多數信貸不良,那麼這個路徑上的團伙很可能是黑產或黑中介。

關鍵社群

:完全子圖。任意兩點都相連的圖具有較高的風險性。這種網路內的人相互都有關聯,這種也是目前很容易識別的欺詐團伙。

除了透過以上方法排查出可疑團體外,還可藉助關聯圖譜的視覺化分析功能,如節點查詢、關係擴散、節點pagerank值計算、最短路徑分析、圖譜資訊統計等功能,輔助我們進行分析和稽核。

3。 智慧反洗錢

李宗純:圖機器學習在度小滿風控中的應用

洗錢作為一種犯罪行為,對金融機構和國家安全造成越來越嚴重的威脅。

傳統的反洗錢的形式,主要是透過大額可疑交易和黑名單使用者這兩個規則來設計。當系統檢測出有大額可疑交易,或發起交易的使用者是存在於黑名單當中的,就會根據規則篩選出這些資訊,送入人工進行二次稽核。但利用圖技術之後,我們可以利用一些關鍵交易追蹤,交易結構識別和資金路徑分析功能,對這些資訊進行及時的預測和發現,比如一些頻繁匯入匯出,集中匯入匯出交易,很可能存在較高洗錢風險。對於存在風險的交易,平臺會實時標記出來,幫助反洗錢團隊實時展示關鍵交易路徑以及交易結構。

4。 智慧稽核

李宗純:圖機器學習在度小滿風控中的應用

在人工稽核流程中,使用者需要自己準備好材料,親自前往線下網點提交材料。稽核專員則需要手動整理材料,完成錄入,並透過多輪搜尋或電話回訪,來驗證使用者身份及使用者提交材料的真實性。待材料整理錄入完成,再提交上級,等待審批意見下來再聯絡使用者,讓使用者回到線下網點繼續辦理後續的手續。這樣的稽核流程人工成本非常高,且極易出錯,搜尋過程繁瑣且不直觀,同時使用者等待的時間也非常長,體驗很差。

利用知識圖譜技術,融合OCR以及NLP技術,平臺上可以自動實現進件秒批。當用戶在手機端提交材料, OCR技術將會對文字資訊進行檢測、識別以及結構化提取,同時進行質量檢測和篡改檢測。接著利用NLP的技術進行文字分詞、分類和關鍵詞識別。最後送入知識圖譜,完成資訊抽取和資訊視覺化,最終實現自動秒批。

李宗純:圖機器學習在度小滿風控中的應用

比如對於企業的風險評估,我們會根據企業的資訊去構建一個企業風險評估的體系,在平臺上會提示企業所處的風險等級。信審人員可以在平臺上實時去查詢企業投資或涉訴的資訊,包括企業最終控制人等,不需要再跳轉至其他平臺去進行多輪次的搜尋。它能夠提升稽核的效率,降低人工成本。

對於每一個進件,平臺都為它提供三層網路的搜尋視覺化:首先關聯到提交證件裡的提交人,提交人相關的空間時序、徵信風險等資訊都會展示出來;其次會關聯到提交人所關聯的企業資訊;第三,與跟這個企業存在關聯的二度關聯人的資訊也可以在平臺當中查詢得出。

04

總結與展望

李宗純:圖機器學習在度小滿風控中的應用

總體來說,圖機器學習在金融風控中的應用非常廣泛,它可以貫穿從貸前、貸中到貸後整個流程。並且我們可以透過視覺化的工具來落地圖機器學習的應用,為不同型別的使用者在不同場景下的不同需求提供不同的的功能。

未來我們希望能夠持續地降低圖學習的門檻,提供更豐富的視覺化工具,提出更通用的行業解決方案,讓越來越多的人可以應用圖技術去做模型挖掘。

05

精彩問答

Q

度小滿圖資料庫是根據開源資料庫改造的麼?

A:是的。

Q:社群的客戶分層是什麼意思?

A:社群分層是指透過各類風控指標,使用者風控屬性的一些評估所給到使用者的一個不同的分層,或者是平臺上給到企業的不同分層,比如某個企業涉訴的情況很多,或者它的上下游企業出現過破產倒閉這些行為,它的風險等級就會更高,我們可能會利用紅色突出展示。

Q:關聯的人或企業資料,沒有授權,你們是如何做到融合的?

A:度小滿用的資料都是已經授權的,不會使用沒有授權的。

Q:人與人之間的資料是怎麼獲得的,可以利用來做一個研究的共享嗎?

A:平臺用的比較多的是人與企業和企業與企業之間的關係資料。我們會根據徵信報告去解讀這些關係資訊。

今天的分享就到這裡,謝謝大家。

集虎卡,開鴻運!最高拆522元驚喜福袋!