選單

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

新智元報道

編輯:Q 好睏

【新智元導讀】

只知道螞蟻森林可以偷能量?這次來看點新鮮的:「圖計算」聽說過麼!

18世紀,尤拉提出了著名的哥尼斯堡七橋問題(Seven Bridges of Königsberg):

河中心的小島與河岸由七座橋相連線,在所有橋都只能走一遍的前提下,如何才能把這個地方所有的橋都走遍?

在隨後發表的論文中,尤拉證明了符合條件的走法並不存在,而該論文也成為圖論史上第一篇重要文獻。

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

圖(Graph)是用於表示物件之間關聯關係的一種抽象資料結構,使用頂點(Vertex)和邊(Edge)進行描述:頂點表示物件,邊表示物件之間的關係。

圖計算,便是以圖作為資料模型來表達問題並予以解決的這一過程。以高效解決圖計算問題為目標的系統軟體稱為圖計算系統。

對於圖計算技術的研究,最早可追溯至20世紀四五十年代。

但圖計算逐漸進入人們視野,則是2010年穀歌發表的「Pregel:一個大規模圖計算系統這篇」這篇論文引起。

https://kowshik。github。io/JPregel/pregel_paper。pdf

「螞蟻森林」=圖計算?

「螞蟻森林」都很熟悉吧,大家是不是都會一起床就跑去「偷」朋友的能量?

而你想象不到的是,這背後都是圖計算在支撐!

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

在你進行了消費或者是做了其他低碳行為之後,就會得到一些能量並且能被自己和朋友實時看到,而這就需要超大圖的高效計算能力。

當朋友把能量偷走時,開啟螞蟻森林的每個人都會實時看到。

既不會別人偷走了10克,使用者自己這裡還有10克;更不會因為還有別的朋友也來偷走10克,自己本來只有10克,最後被偷走了20克。

如果使用者的規模變得十分巨大,「偷能量」這個動作對時效性以及對資料一致性的要求就會非常的高。

在這樣一個「遊戲」場景下,螞蟻鍛煉出了在超大規模圖上對資料量高,吞吐率低,延時方面的計算的能力。

圖計算,沒那麼簡單

近幾年,隨著資料的多樣化,資料量的大幅度提升和算力的突破性進展,超大規模圖計算在大資料公司發揮著越來越重要的作用,尤其是以深度學習和圖計算結合的大規模圖表徵為代表的系列演算法。

相比於傳統的基於二維表結構的資料庫或大資料模型,圖資料結構非常適合於對事物之間深層次的關係進行實時高效地分析。

圖計算的發展和應用有井噴之勢,各大公司也相應推出圖計算平臺,例如Google Pregel、Facebook Graph等。

隨著新技術和新業務的推動,目前圖計算技術已進入臨近爆發的前夜。

根據DB-Engines的排名顯示,圖資料庫關注熱度在2013-2020年間增長了10倍,關注度增長排名第一。

而「圖資料庫、圖計算引擎、知識圖譜」三項熱點技術方向也正在全球範圍內加速產業化,國內阿里、華為、騰訊、百度等大型雲廠商以及部分初創企業均已佈局這一技術領域。

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

對於傳統的「大資料」來說,一般是以表的形式進行儲存,這種關係型資料的特點就是資料往往是「同質化」的。

而圖資料是一種更加高維的資料,從而能夠涵蓋那些「非同質化」的資料。

也就是說,圖是對現有資料模型的一個升級,可以讓很多技術可以做得更快更好。

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

舉例來說,在推薦系統中,如果根據朋友的興趣推出某使用者的興趣,或者透過使用者購買的商品推薦出來還想要的商品,這個深度是比較淺的,如果要查它的鄰居的鄰居的鄰居(下探3度)。

當然,上述這些計算也都是基於個人隱私保護基礎之上的。

在傳統的關係型資料中,這個過程中訪問的資料量是指數級增加的,效能的下降也是指數級的,而當3度以上的時候,很有可能關係型資料庫已經查不出來了。

但是在圖資料庫裡面,不需要做很多個表的交、並等操作即可完成。

第一列的「深度」表示社交朋友之間的關係,深度為1,表明二人為直接好友;深度為2,表明二人為好友的好友,以此類推。

由圖表可知,當深度達到5時,關係型資料庫已無法完成任務,而圖資料庫的響應時間為2。132秒,在可接受範圍內。

不過,優勢在某種情況下往往也會變成劣勢。圖計算處理的最大難點也在於資料處理的不規整,這種不規整使得資料處理起來非常吃力,在處理億級以上的海量資料時尤其如此。

當要下探6度的時候,相當於要把全圖的資料都能夠訪問一遍,這也是現在很多圖學習演算法的限制。

螞蟻集團計算儲存首席架構師何昌華表示,目前幾乎所有的圖深度學習探索的基本上都是2度,能夠探索到3度的深度已經是非常的少。

而螞蟻在一些典型的圖演算法上已經可以做到10度以上的探索,而現在正在做的系統則希望能夠在不強制取樣的情況下不限制探索的深度。

當把圖做了大規模甚至超大規模的分散式以後,圖資料如何儲存,計算和通訊如何做到高效,就成了非常棘手的一個問題,這也是所有做圖計算相關工作面臨的一個共同問題。

一個超大規模的圖,往往會被分割成很多子圖以後放到多臺計算機上進行處理,而這些子圖之間是需要通訊的,透過通訊才能夠知道圖全部的資訊,計算才能不停的迭代和互動下去。

例如,在一個圖裡面,某個人增加了一筆交易,會影響這個圖裡面的很多條邊,如何做到資料的一致變動,是非常難的問題。

此外,傳統的很多圖計算基本上要把所有的圖全部載入記憶體以後計算才能夠高效,但其實這樣的高速是以高昂的成本為代價的。

現在很多的探索會嘗試把記憶體裡面的資料放到硬碟上去,成本就會極大的降低,同時問題也就轉變成了如何高效地訪問硬碟上的資料,是否能夠犧牲部分的吞吐而把更多的資料放到外存上,在提升外存的效率的同時支援更大的圖。

技術發展?定個標準先

作為一個在我國乃至全球都正在蓬勃發展的熱門領域,制定相應技術標準的重要性則不言而喻,既能促進技術的全面發展,也有利於掌握相應的話語權。我國也一直希望建立一些「圖」方面的標準,眾多科技公司也一直積極的參與其中。

去年9月,國家標準化管理委員會透過全國標準資訊公共服務平臺公佈,《資訊科技-圖資料庫系統技術要求》的國家標準正式立項,這是國內首個圖資料庫方面的國家標準立項。

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

《資訊科技圖資料庫系統技術要求》國家標準立項公示圖

據公示資訊可知,此國家標準由TC28(全國資訊科技標準化技術委員會)歸口,由螞蟻集團牽頭、多家公司共同參與制定。基於螞蟻集團對於該標準的貢獻,在全國信標委大資料標準工作組會議上,螞蟻集團還被選為優秀成員單位。

除了立項的圖資料庫國家標準,基於自身在圖智慧領域的產業實踐經驗,螞蟻集團還參與了一系列標準的制定:

在浙江網際網路金融聯合會牽頭制定和釋出了《網際網路金融分散式架構技術應用指南》的團體標準;

在全國金融標準化技術委員會牽頭立項了《金融IT基礎設施 儲存應用實施指南》的行業標準;

在CCSA TC601,參與信通院牽頭的《圖資料庫白皮書》和《大資料圖資料庫技術要求與測試方法》團體標準;

在ISO/IEC JTC1 SC32參與《ISO/IEC 39075 : Graph Query Language》的國際標準。

作為圖資料庫國家標準的牽頭和發起方,何昌華表示:「螞蟻在圖智慧領域,具備圖儲存、圖計算、圖分析推理、圖研發平臺的全技術棧GeaGraph。我們希望與各方行業機構透過標準共建,來促進圖智慧技術的應用,促進數字經濟的發展。」

螞蟻走到哪了?

2015年初,螞蟻開始組建圖資料庫的團隊,2016年釋出了第一個圖資料庫的版本——GeaBase。

上線以後,新版支付寶是GeaBase迎來的第一筆流量,接下來從支付寶的一個更大規模的改版到新春紅包到雙11,GeaBase進入到越來越多的業務裡面。

到2019年雙11,迎來了一個里程碑事件:單叢集規模突破萬億邊!

點邊查詢,針對點、邊或者是關係的查詢,突破了800萬的TPS,並且平均延時小於10毫秒。

如今,螞蟻對於海量超大規模圖資料的儲存的能力,已經能夠做到超過萬億級別的點跟邊的規模,在業界已經是非常領先的水平。

在TB這個資料規模的級別上,在5-6度左右都能做到毫秒級的結果的反饋。同時,還能實現百萬級每秒這種高的吞吐量。

在LDBC的這種效能測試裡面,是第二名的效能7。6倍,在斯坦福的圖深度學習推理評測中打榜的時候也拿到了第一。

此外,在延時這些方面的比較上,螞蟻是遠遠領先的,包括六跳的查詢、迭代的演算法,甚至要求很高的尾延時,在生產環境中都做到了小於20毫秒,這是業界的很多其他的圖資料庫遠遠達不到的。

而這些出色的能力,都依賴於螞蟻自研的GeaGraph體系:

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

今年世界網際網路大會期間,大規模圖計算系統GeaGraph這個產品體系獲得了世界網際網路領先科技成果獎。

GeaGraph體系包括如下部分:

1。 PhStore:螞蟻純自研的儲存引擎,基於完美雜湊(Perfect Hashing)技術,在圖的讀取效能上可以達到O(1)複雜度,是業界首創的基於完美雜湊的KV圖儲存。

2。 GeaBase:螞蟻集團完全自主研發的金融級分散式圖資料庫,GeaBase單叢集能支撐萬億邊規模的圖資料,寫入和查詢吞吐量超過每秒百萬次,99。9%查詢和寫入延時小於20ms。

3。 GeaBase Lite:一個支援事務處理和強隔離性的單機圖資料庫,可以單機支援百億邊的圖資料,而且集成了全圖迭代分析能力,可以同時滿足使用者對圖的複雜分析、快速查詢和視覺化的需求。

4。 GeaFlow:自研的流式圖計算引擎,提供了圖探索、圖模擬、動態子圖匹配和流式增量圖計算等多種近線圖計算能力,並支援了千億級圖資料的長週期(半年/一年)模擬回溯驗證、秒級6度以上的流式子圖匹配和秒級全圖時序增量圖計算等關鍵技術能力。

5。 GeaComputing:在清華大學研發的Gemini和ShenTu離線圖計算系統上進一步最佳化的分散式圖計算平臺,支援萬億級圖資料,能夠為使用者提供高效的複雜圖分析能力。

6。 GeaLearning:自主研發的以圖為核心的超大規模分散式深度學習系統,支援多種靈活圖模型訓練方法,不限制圖神經網路層數和節點鄰居個數,以模型並行為核心的混合並行執行方式等。

7。 GeaMaker:螞蟻自主研發的一站式圖計算研發探索平臺,平臺融合了上述底層系統的能力,為使用者提供了具備探索、模擬、效能評估等功能,集線上查詢,近線計算,離線分析和圖學習於一體,可以讓開發者更方便地使用。

反欺詐

在線上交易中,最讓銀行和第三方頭疼的就是「套現」這種欺詐行為。

例如有一些不良的商家,會透過銀行卡、花唄或者熟人等來完成一個套現的迴路。

以前,挖掘的關係數或者關係的深度往往都有限,並且很難,計算起來也不夠高效。而現在能夠把這種行為建模成一個圖,在這個圖上就會發現它形成了一個欺詐的閉環。

在資料量很小的時候,傳統的圖計算單機就可以解決這個問題,現在的海量資料的情況下,需要對超大規模圖進行切割,還要做高效的儲存,更需要很低的時延。

螞蟻則希望在每一筆交易發生的時候,都能夠實時的檢測到並阻止這樣的行為。

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

除此之外,現在欺詐的形式上也有了新的變化:以前的欺詐行為很集中,就在一個人或者賬戶上,透過簡單的技術進行個體挖掘就能看到特徵找到欺詐。

而現在是對抗的,甚至升級成了團伙,會租借一些正常交易的合法賬戶,混在海量的交易資料中,可能只有中間的幾筆交易才是欺詐,使得欺詐行為變得非常隱蔽,很難找到。

2020年時,欺詐手法變成不僅僅是一個團伙,而且它的團伙還在演變,團伙成員還在不停的變化。

在觀察它按照時間往前演進的過程中,能夠識別到這些團伙裡的一些關鍵的角色,這樣就能夠更加快速精準的定位團伙的核心成員,這就是時序圖計算。

這也對螞蟻的底層圖計算計算提出了新的挑戰,現在能做到的是對欺詐行為的被動識別,未來螞蟻希望可以能夠更進一步,對風險也能進行主動的預測。

反洗錢

反洗錢跟反欺詐的很多技術是非常類似的,反洗錢對於時效性要求非常高,判斷的邏輯也越來越複雜。

在洗錢的行為裡面,常見手段是透過在海量的交易裡面混雜洗錢和一些藝術品的拍賣,來掩蓋洗錢行為。

作案的人員可能有很多重身份和大量的賬號,並且交易的頻率不高,交易的路徑也非常複雜,可能是在正常的交易中混雜著這樣的一些可疑的交易。

要找到這樣的一些欺詐的行為,並且阻止他,就需要深入的圖分析、圖計算的能力。

從2018年開始,基於資金網路、中介網路這樣一些典型的欺詐,螞蟻已經能夠做到百萬吞吐級別對應毫秒級的響應。

類似傳統的方法做在圖上,但是把它的吞吐量變大、響應時間變短,能夠更快速的抓到這些行為,而這些工作如果使用傳統的方法用人來做,可能需要幾個小時或者一天,但螞蟻把它做到了線上這樣高效的能力。

2021年,GeaStack應用於螞蟻集團反洗錢分析,覆蓋支付寶全部資金交易,對疑似團伙類犯罪風險識別能力提高94倍多,風險審理分析效率提升90%。

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!

除了金融領域之外,螞蟻集團還進行了很多外部合作。

在人工智慧時代,NLP、CV、RL等領域已經百家爭鳴,而圖計算作為最前沿的技術高地之一,誰能夠在這個方面打造出核心的能力,誰就能夠站到未來世界通用人工智慧的最前沿。

而目前國內的很多公司包括螞蟻集團在內,在圖計算方面的一些探索已經走在了世界前列。

一直以來人們對於技術的探索從來都只有一個目標,就是讓人類從中受益。

何昌華說,「螞蟻的初心也一直都是不斷探索革命性的技術,並在支援好螞蟻業務的同時把達到一定水平的成熟技術開放給社會,希望它在更多的場景中發揮出社會價值。」

螞蟻森林「偷能量」和「反洗錢」,用的竟是同一種技術!