選單

“隱私計算”四大技術路徑解析

9月1日,《中華人民共和國資料安全法》(下稱《資料安全法》)正式落地實施,這是我國首部與資料安全相關的法律。

在DT(資料技術)時代,資料已然成為一種重要的資源,是一種重要的新型生產要素。和傳統生產要素相比,資料要想真正成為既可以自由流通,又能具備安全性的戰略資源,就繞不開資料隱私計算這一環節。隱私計算可以讓資料在流透過程實現“可用不可見”,在保護資料隱私的前提下,解決資料流通、應用等資料服務問題,成為解決資料利用和安全性這對矛盾的重要途徑。

在隱私計算的領域中也有不同技術路徑,它們採用不同的技術形式實現資料隱私安全的目標。根據資料是否流出、計算方式是否集中來劃分,隱私計算可以劃分為四個不同的象限,分別是資料流出、集中計算;資料流出、協同計算;資料不流出、協同計算和資料不流出、集中計算。

路徑一:資料流出、集中計算。代表技術:資料脫敏、差分隱私、同態加密

該技術路徑的核心,是對資料進行變形、擾動、加密等操作,可保障資料流出時的隱私安全,主要有三種安全技術:資料脫敏、差分隱私、同態加密。

資料脫敏(Data Masking)是指使用脫敏規則對資料中某些敏感資訊進行資料的變形,從而達到保護敏感隱私資料的目的。更具體來講,我們可以採用刪除可識別個人的資訊的方式,讓資料描述的人保持匿名,也可以採用對資料去標識化,讓人們無法根據資料識別到具體的個人。

如果說資料脫敏是透過對敏感資訊“做減法”的方式實現保護隱私,那麼差分隱私(Differential Privacy)就是以“摻沙子”的方式,透過在資料或者計算結果上新增一定強度的噪聲,來保證使用者無法透過資料分析結果推斷出是否包含某一特定的資料。

而同態加密(Homomorphic Encryption)則是用技術方式,在不影響資料運算結果的前提下將資料變為密文,這也就不再涉及隱私的問題,而不同的加密技術允許不同的運算規則。

整體看,這些技術透過對資料操作來保障資料流出時的隱私安全,但是它們也有一些侷限性:

1)資料脫敏容易遭受攻擊,從技術恢復資料中的敏感資訊較為容易。

2)差分隱私會降低機器學習準確率,較高強度的噪聲雖然較好地保護隱私,但對資料分析的準確性也有較大的影響。

3)同態加密運算效率低,也會影響使用該技術的意願。

路徑二:資料流出、協同計算。代表技術:安全多方計算平臺

“兩個富翁的財富是1-10之間的整數,如何能在不透露雙方財富的前提下,比較出誰更富有?”這是姚期智院士在1982年提出的“百萬富翁問題”。富翁不露財卻又想做比較,按照這樣的邏輯,如何在一個互不信任的多方系統中,各參與方能協同完成計算任務,同時保證各自資料的安全性呢?這就是網路安全版的“百萬富翁問題”。而解決之道就是安全多方計算。

安全多方計算是密碼學的一個子領域,其目標是為各參與方共同計算一個函式,這個函式的輸入來自不同的參與方,同時保證這些輸入內容不洩漏。目前,隨著業界對安全多方計算技術的關注,其應用範圍越來越廣泛,國內外各大廠商也相繼推出各自的安全多方計算平臺或隱私計算平臺。與此同時,開源的安全多方計算庫也越來越多,如在Google公司Tensorflow基礎上開源的TF-Encrypted,開源社群Openmined基於微軟SEAL開源的TenSEAL,以及安全多方計算的協議實現ABY3與MP-SPDZ等。

這一路徑下又有兩種主流技術。一種是混淆電路(Garbled Circuit)。透過將兩方參與的安全計算函式編譯成布林電路,並將電路的真值表進行加密、打亂,就能保證電路的正常輸出而又不洩露參與計算的雙方私有資訊。另一種是秘密共享(Secret Sharing),類似於需要將所有的秘密拼在一起才能還原全貌的思路,這種技術在參與者之間分發秘密,每個參與者都被分配了一份秘密分割,只有當足夠數量的、不同型別的秘密分割組合在一起時,才能將秘密恢復出來;單個的秘密分割本身是沒有任何意義的。

這一技術實現了可證明的安全性,對於安全性要求較高的場景具有較好的應用價值。但在實際落地中,仍有一定的侷限性:

1)效能低下:由於使用了很多密碼學方法,一些複雜的任務很難在在短時間內完成計算任務;

2)程式編寫難度大:由於安全多方計算涉及密碼學技術較多,且應用起來流程較其他技術相比非常複雜,通常需要透過藉助額外的程式設計庫進行實現,這大大增加了應用編寫人員的學習成本和工作量,導致在實際落地過程中仍存在障礙。

3)除錯難度大:由於安全多方計算僅輸出最終的執行結果,在面對複雜的分析問題時,使用者難以僅透過程式的最終執行結果獲得反饋去最佳化整個資料分析過程。

路徑三:資料不流出、協同計算。代表技術:聯邦學習平臺

聯邦學習(Federated Learning)的概念於2016年由Google率先提出,用於解決安卓手機終端使用者在手機端使用使用者資料訓練模型的問題,其本質上是一種分散式機器學習。這一技術的核心思路是,儘管有同一個中央伺服器或服務協同商,但參與方的原始資料都只會在本地,而不會用於交換傳輸,真正參與聚合的完成訓練的是經過模型轉換的資料資訊。

由於場景的區別,聯邦學習還分為了橫向聯邦學習、縱向聯邦學習和聯邦遷移學習等形式。隨著歐盟《通用資料保護條例》(GDPR)的推出,資料隱私保護越來越受到各國重視,聯邦學習的應用範圍也愈加廣泛。例如,Google公司開源了一個學習框架,用來完成分類、迴歸等機器學習任務;國內以楊強教授為代表的微眾銀行開源聯邦學習框架FATE,提供一站式聯邦模型服務解決方案。

整體看,聯邦學習可以在資料不流出本地前提下,聯合多個參與方訓練模型,對於打破資料孤島具有重要意義。其侷限主要在:

1)存在隱私洩露風險,聯邦學習的訓練模型是需要共享的,這就為攻擊者根據模型資訊倒推隱私資料提供可能。

2)機器學習演算法相容性較差,且目前支援的機器學習演算法較少。

3)機器學習任務除錯困難,要想獲得最優的模型和引數往往透過不斷嘗試和除錯獲得,一個標準機器學習工作流包括資料探索、特徵工程、模型選擇、超引數最佳化等步驟,再加上在聯邦學習場景下,資料分散在各地,資料可用不可見,這些步驟很難在保證安全地前提下完成。

路徑四:資料不流出、集中計算。代表技術:可信計算平臺

可信計算平臺就是透過隔離機制構建出一個安全可控區域,在這個足夠安全的空間中,資料能夠被集中訓練且不流出,從而保證內部載入資料的機密性和完整性。

具體講,可信計算平臺又有兩種技術。一種是可信執行環境(Trusted Execution Environment,TEE),該技術透過軟硬體隔離安全機制建立一個安全隔離的執行環境,從而防止外部攻擊者(包括系統管理員)竊取TEE內部執行的資料。硬體上,它依賴於將其預置在CPU等硬體,然後再透過應用程式的參與營造出一個安全世界。TEE具備支援多層次、高複雜度的演算法邏輯實現,運算效率高以及可信度量保證執行邏輯可信等特點。然而,TEE由於依賴於CPU等硬體實現,必須確保晶片廠商可信。同時,TEE對伺服器型號限制較大,其功能性和效能等均收到硬體限制。

另一種技術為資料沙箱技術,該技術透過構建一個可信計算環境,使得外部程式可以在該平臺上進行執行。這樣,既可以使用外部程式對資料進行加工處理,也可以保障資料的安全。對於資料需求方人員,他們不能進入資料沙箱檢視調閱真實的全量資料。對於資料分析師而言,由於資料沙箱將除錯環境和執行環境隔離,所以他們也只能在除錯環境中使用樣本資料除錯程式碼,然後將程式碼傳送到執行環境中執行全量資料,從始至終都無法接觸全量資料,這樣,隱私安全的保護就得以實現。

資料沙箱技術主要特點是將隱私安全能力植入大資料計算、儲存引擎等基礎設施,透過將除錯環境與執行環境隔離,構建一個安全可控的資料環境,提升資料融合計算過程中的隱私安全水位,實現資料探勘計算過程中的可用不可見,且不改變業務原有技術棧和使用習慣無需改造現有的資料分析演算法和工具,同時使得業務演算法模型精度折損微小。因此,這可以說是兼具安全性和可操作性的較為成熟的技術。

目前,國內學術界以中國工程院院士方濱興為代表,基於可信計算平臺技術打造AI靶場接收使用者程式,透過防水堡過濾使用者程式外傳結果時夾帶的原始資訊。在國內產業界,奇安信、百度、京東數科、UCloud等各大廠商均有推出資料沙箱相關產品。以奇安信率先推出的“資料交易沙箱”為例,它基於“資料不動程式動”、“資料可用不可見”的安全理念,採用除錯環境與執行環境隔離的技術來解決資料流通交易過程中的資料隱私安全問題。

除了上述談及的四大技術路徑,在網路安全領域,伴隨網路技術的不斷髮展,區塊鏈技術與上述技術流有著融合趨勢。區塊鏈具有資料可溯源、難以篡改、公開透明、智慧合約自動執行等技術特點,能夠一定程度上解決多方協作、多方信任和資料共享流通的問題。在與隱私計算相結合時,主要有三個關鍵技術:一是基於區塊鏈的安全金鑰管理與可信身份認證;二是鏈上、鏈下的安全計算協同;三是資料生命週期管理。

安全金鑰管理與可信身份認證能夠實現相對安全靈活的金鑰管理體系,降低金鑰中心化儲存的安全風險,在防止中間人攻擊和丟包攻擊的同時,使得隱私管理更加安全、精細化。此外,該技術也能解決資料共享參與者身份及資料可信問題,這樣,不僅可以提升惡意參與者的作惡成本,還可以保障共享計算的資料質量。

鏈上、鏈下的安全計算協同又可分為鏈上與鏈下兩個部分。透過鏈上與鏈下相結合,區塊鏈專注業務邏輯可信執行與資料權屬憑證流通,而鏈下隱私計算網路負責大規模運算和資料價值流通,最終實現一加一大於二的效果。

資料生命週期安全管理方面需要實現全流程管理,包括資料採集、傳輸、儲存、使用、流通、銷燬等環節。資料共享計算參與者可以在鏈上用智慧合約來實現計算過程中的協作管理功能,由參與方之間共同治理隱私計算過程,協作過程公平公正、公開透明、權責對等,避免了中心化協調方參與帶來的隱私洩漏的風險,也能確保參與方按照約定方式計算,提升資料共享協作效率。

區塊鏈隱私計算目前也正投入到實際場景中得到應用。然而,它仍然具有一些問題等待進一步解決。例如,區塊鏈上資料處理能力不足,鏈上計算受限於虛擬機器執行和網路共識效能,容易出現鏈上無法承載大量交易和無法即時交付等問題,難以滿足支援高吞吐的交易量和即時交付的需求。其次,由於在引入區塊鏈技術時資料半同態加密、使用者身份認證等密碼學保護手段。這會使得架構上引入了額外的申請審批流程,計算上引入了加密帶來的額外計算開銷,使得資料流透過程效率大幅降低。

綜上,隱私計算四大技術路徑各有千秋、各有利弊。但毫無疑問的是,既具有技術上的先進性,又具有操作執行上便捷性、延伸性以及高效率等特點的技術,無疑能夠在當前獲得更大認可。而把握未來技術的動向,佔據技術發展的上風,將成為各方參與者需追求之事。(安國平)