2023年3月,由30個市場經濟國家組成的政府間國際經濟合作組織——經濟合作與發展組織(OECD)發布了一份名為《新興隱私增強技術-當前監管與政策方法報告》的文件。
該報告回顧了近期隱私增強領域的技術進步,并評估了不同類型的技術成熟度以及帶來的機遇與挑戰。
本文將為大家梳理盤點報告中提到的四大類(數據混淆工具、加密數據處理工具、聯邦分布式分析、數據責任化工具)共14種隱私增強技術,從『技術介紹』、『應用場景』、『難點和限制』三方面展開,全面感知隱私增強技術的布局和潛力。
1 數據混淆工具
數據混淆,顧名思義,在本地處理數據時通過添加“噪音”或刪除識別細節來混淆數據。報告中介紹的數據混淆類隱私增強技術有5種:『匿名化』、『偽匿名化』、『合成數據』、『差分隱私』、『零知識證明』。
01
關鍵技術
1.匿名化:匿名化是從數據中刪除識別元素的過程,以防止對數據主體進行重新識別。理論上,經過匿名化處理的數據在與其他數據集結合時,不應該能夠追溯到個人身份。匿名化被廣泛應用是因為它可以做到在不侵犯數據主體隱私的情況下,刪除數據中的識別細節,從而可以以不違反隱私和數據保護框架的方式使用數據。然而,在實際應用中,真正具有解釋能力的匿名化很難實現,并且仍然難以解釋。
2.偽匿名化:與匿名化相比,偽匿名化是一種較弱的去標識化形式。它主要通過從數據中刪除可能被識別的信息,以減少對數據主體的識別風險。偽匿名化的數據在與存儲在遠程的可識別信息或外部可識別數據集相結合時,仍然保留被重構的可能。偽匿名化也被廣泛使用,因為它可以從數據中刪除識別細節,但與匿名化相比,偽匿名化的數據在許多司法管轄區被視為個人數據。
3.合成數據:合成數據是“從一個或多個人口模型生成的類似人工數據,用以實現保密性。” 主要思想是生成具有與原始數據源類似的統計特性的人工數據。使用合成數據可以減少隱私風險是達成共識的。但是仍然存在一些限制和挑戰,例如加拿大隱私專員辦公室(OPC)指出:“合成數據仍然對固定目的(例如醫學研究)有用,因為它們保持與原始數據相同的統計特性,但不再是最初從個人那里收集到的數據。如果源數據中的記錄出現在合成數據中,仍然可能暴露”。此外,與匿名化和偽匿名化類似,合成數據也容易受到重新識別攻擊,并且無法防止屬性泄露。
4.差分隱私:差分隱私通過對原始數據進行微小的改變(添加噪音),以掩蓋個體輸入的詳細信息,同時保持數據的解釋能力。其核心思想是對個體記錄進行微小改動,安全地去標識化數據,而對聚合結果影響不大。噪音可以在數據收集時(分布式)或在數據發布前的中央位置添加(集中式)。
差分隱私在學術界已經得到一定發展,但只有少數機構大規模部署。當前仍需要進一步發展以定義不同應用場景中差分隱私的可接受參數和閾值。許多文獻中討論的差分隱私部署被批評其既不能提供足夠的隱私保護,也不能提供足夠的有效參數。
5.零知識證明:零知識證明可以回答是否某事為真或為假的簡單問題,而不泄露任何其他信息。比如在回答關于某人收入是否超過某個閾值等簡單問題時隱藏底層真實的收入數據。
零知識證明在提升隱私方面具有重要屬性,但應用仍處于早期階段。目前主要集中在改善加密貨幣應用的隱私性。未來有望在醫療、選舉、年齡驗證和交通管理等領域使用零知識證明,但迄今為止尚未進行大規模部署。ZKP被認為是歐洲數字身份錢包項目的重要技術之一,該項目是作為歐洲聯盟有關電子身份和電子交易信任服務的法規(eIDAS法規)計劃的一部分。
02
應用場景
場景一:在不泄露隱私的情況下驗證信息:數據主體通常需要披露個人數據以獲取服務,如年齡或收入信息。例如,基于零知識證明的數據混淆隱私增強技術可以在不披露信息的情況下確認信息,并可應用于醫療保健、政府、住房和電子商務領域。
場景二:提供更多更深入的研究機會:差分隱私等數據混淆隱私增強技術可以為原本過于敏感而無法共享的大型數據集提供新的共享研究機會。主要應用領域包括醫療保健、交通運輸和金融等擁有大量敏感、有價值信息的領域。
場景三:安全存儲:差分隱私等數據混淆技術可以降低錯誤外泄的數據被明確識別和確認的風險。將帶有識別細節的數據偽名化,并提供安全存儲條件,可以降低數據外泄后被重新識別的風險。
場景四:數據復用和共享(只需保留總體統計特性):通過保留總體統計特性,分析合成數據可以得出與分析原始數據源相同的統計結論。應用較為廣泛的領域包括:訓練人工智能模型、測試軟件、共享數據、生成合成數字內容。
03
難點和限制
1.匿名化技術并不完全可靠:匿名數據集的記錄可能在發布后被重新識別。這種挑戰在很大程度上是因為在匿名化時難以預料到所有的重新識別手段:例如,可能與匿名數據集結合分析獲取個人信息的所有可能數據集,以及未來可能出現的其他分析技術。
2.混淆數據時也可能意外泄露信息:差分隱私等應用程序向記錄中引入噪音,但某些記錄可能保持原始狀態,數據泄露量與引入的噪音量有關。目前,對于在不同情況下保護隱私所需的噪音量沒有達成共識的規范。此外,對于許多現實世界的數據集來說,隱私-效用的良好平衡尚不清楚,因為足以保護隱私的參數值可能會破壞效用,反之亦然。
3.技能和能力不足:混淆措施包括匿名化通常涉及復雜的過程,需要受過訓練的專家來實施,以確保不會意外泄露信息。然而,并非所有組織都具備實施這些復雜過程所需的能力和資源,有時甚至缺乏對數據分析的認識和所需的能力而無法意識到和應對重新識別的風險。
4.缺乏落地案例:混淆數據隱私增強技術很有前景,但目前的使用案例相對較少。
2 加密數據處理工具
從數字安全和隱私保護的角度來看,因為需要對數據進行明文處理,所以數據處理一直是一個主要的風險點。在數據靜止和傳輸過程中,常見的加密技術在一定程度上減輕了數據泄露的風險。然而,在處理過程中需要解密數據時,這些風險仍然存在。
與數據混淆不同,加密數據時一般底層原始數據保持不變,但通過加密進行隱藏。然而,值得注意的是,加密數據技術并不能保證防止數字安全漏洞,因為嚴重的數據泄露仍可能發生。報告中介紹的加密數據技術主要有『同態加密(HE)』、『多方計算(MPC)』、『私密集合交集(PSI)』、『受信任的執行環境(TEE)』。
01
關鍵技術
1.同態加密(HE):同態加密允許在不暴露數據給處理方的情況下進行計算。數據所有者使用自己的密鑰對數據進行加密,然后處理器可以在加密數據上執行計算,得到只有數據所有者的密鑰能解密的結果。因為數據可以在使用過程中保持加密狀態,從而確保嚴格的機密性。它降低了數據在使用過程中的安全風險。
盡管同態加密的效率相對較低,但它在需要保護隱私且隱私效益超過計算成本的情況下是一個理想選擇。同態計算方法在其他隱私增強技術中也得到廣泛應用,如多方計算。盡管它的效率較低,但隨著數據加密和處理效率的提升,使用同態加密的應用也可能增加。
2.多方安全計算(MPC):MPC是一組工具,使參與方能夠在保持其輸入數據私密的情況下共同計算函數。它消除了需要信任的第三方查看和管理數據的需求。MPC可以聚合敏感數據,而無需要求任何數據貢獻者披露自己的數據。因此,可以使用秘密共享技術或同態加密來聚合和計算來自多個參與方的數據。與同態加密一樣,決策者可能需要考慮在法律下如何處理在MPC中使用的加密數據。與獨立的同態加密應用相比,MPC應用更加成熟。
3.隱私集合求交(PSI):PSI是一種安全的多方計算形式,允許組織在不揭示各自數據集內容的情況下找到共同元素。PSI只顯示不同數據集之間的共享元素,而不需要數據主體披露其完整的數據集。PSI可以提升隱私和數據保護,減少數據暴露的風險。政策制定者可以要求希望匹配客戶列表的公司使用PSI來限制不必要的數據暴露。PSI技術已在COVID-19接觸追蹤和移動消息應用等大規模應用中得到應用。
4.可信執行環境(TEE):TEE是計算機處理器上的一個專用區域,與操作系統分離并得到安全保護。它存儲敏感且不可變的數據,并且可以在其安全限定范圍內運行安全代碼。TEE假設操作系統是可破壞和不可信任的。因此,在TEE下,操作系統無法訪問處理器的安全區域中的信息或讀取存儲的秘密。TEE提供了一個安全的位置,可在設備上存儲和使用數據,而不會將其暴露給不可信任的環境的風險。TEE可以幫助增強隱私和數據保護,因為它允許在設備上的使用過程中保持數據的安全性。
02
應用場景
場景一:使用敏感數據進行計算:同態加密和多方安全計算都允許在不披露給第三方的情況下使用敏感數據進行計算。最近的應用包括使用MPC生成有關安全防御、控制失效和損失的網絡風險指標,進行保密的工資調查,將教育和稅務數據庫進行關聯等。
場景二:在同一組織內對加密數據進行計算:組織內的敏感數據在靜態和傳輸過程中仍然保持加密狀態。這四種隱私增強技術允許在數據分析和處理過程中保護數據。一些協議側重于多方安全計算,但相同的技術也可以保護組織自身的數據集的處理過程,從而提高在數據泄露事件中的安全性。
場景三:使用需要保持私密性的模型進行計算:組織通常擁有不希望公開的專有模型,而數據主體/所有者則擁有不希望披露的數據。多方安全計算、同態加密和可信執行環境都可以保護計算過程中的模型私密性。
場景四:接觸追蹤和相互聯系發現:PSI技術已大規模應用,例如由蘋果和谷歌提供的COVID-19接觸追蹤功能。在這些情況下,軟件可以通知用戶是否與已感染病毒的人的手機有過密切接觸。移動消息應用也使用PSI進行聯系人發現,即確定用戶的聯系人是否也在該應用上,而不披露用戶的所有聯系人。
場景五:在線廣告轉化測量:研究人員使用PSI將在線廣告投放與商品支付進行匹配。
03
難點和限制
1.數據清洗挑戰:使用多方安全計算、同態加密和隱私集合求交的加密數據無法被數據控制者和處理者檢查和清洗。分析人員通常需要花費大量時間從各種來源收集數據并進行清洗,然后再將其用于模型中。然而,使用這些隱私增強技術時,分析人員無法查看原始數據,因此所有的錯誤需要在數據提交到計算之前由數據主體或數據控制者進行識別和清洗。
2.確保結果不泄露信息:加密處理工具旨在保護數據處理過程中的數據,但無法完全保證結果不會泄露信息。例如,從單個觀測中產生的查詢/計算結果將泄露該觀測的內容。因此,在選擇用于多方計算的函數時需要特別謹慎,因為結果可能會泄露有關輸入數據的信息,就像由可信第三方進行計算時可能發生的情況一樣。目前的研究正在探索在計算完成并發布結果之前如何測試計算是否可能泄露信息,并將這些測試設計到系統和應用程序中。
3.計算成本居高不下:與標準數據庫查詢或模型應用相比,對加密數據進行計算的計算成本要高得多。如果存在更簡單、更便宜的明文數據處理方法,組織通常會避免使用這些技術。然而,如果政府推薦或要求使用加密數據處理,這些技術的使用可能會增加。隨著研究的進展,這些過程也在變得更加高效。
3 聯邦分布式分析
聯邦分布式分析允許對不可見或不可訪問的數據執行分析任務(例如訓練模型)。通過這種方式,只有摘要統計數據或結果被傳輸給執行任務的人員。這樣可以讓敏感數據在數據源的保管下由第三方進行分析。報告中主要介紹『聯邦學習』、『分布式分析』兩種典型技術。
01
關鍵技術
1.聯邦學習:傳統的數據分析技術要求將數據集中處理,但是聯邦學習可以使原始數據在不出本地的情況下處理。聯邦學習減少了敏感數據離開數據主體設備并由數據處理者存儲的需求。
聯邦學習中,只有從模型中學習的參數被傳輸回數據控制者以用于優化模型。谷歌等公司已廣泛部署聯邦學習用于預測文本應用。但是在某些情況下,從聯邦學習中提取的特征/參數仍可能泄漏個人信息。此外,越來越多的攻擊想要恢復訓練數據。
2.分布式分析:在分布式分析中,數據存儲在數據控制者手中,但模型訓練分布在不同的節點上。這使得敏感數據可以保留在數據源的監管下,同時由第三方進行分析。歐洲委員會的歐盟數據戰略將分散式數據處理列為改進用戶控制和數據保護合規性的方法。在公共和私營部門研究中,衛生部門也擴大了分布式分析解決方案的使用,以實現對健康數據的安全和隱私保護使用。其中包括歐盟衛生數據與證據網絡項目、歐洲藥品管理局達爾文項目和全球觀察與健康數據科學與信息學項目。
分布式分析使軟件和統計分析程序能夠“移動”到數據所在的位置,而不是將數據流向中央數據存儲庫進行分析。與聯邦學習類似,這種方法不允許數據分析員和處理者直接訪問數據。所有要使用的數據首先需要編碼為共同的數據模型,例如觀察醫學結果合作伙伴模型。
02
應用場景
隱私保護機器學習:聯邦學習使研究人員能夠在數據主體的設備上訓練模型,這樣可以避免不必要的數據收集和存儲由數據控制者進行。目前,聯邦學習模型廣泛用于大規模訓練預測文本應用程序。
03
難點和限制
1.聯邦學習和分布式分析仍可能泄漏信息:例如,聯邦學習應用程序可能會在返回給數據控制者的參數中泄漏信息。研究人員已提出使用加密數據處理技術,如同態加密或多方計算(上文已討論)。
2.對穩定連接的依賴:聯邦學習和分布式分析的使用依賴于穩定的連接。這對于需要連續可用的分析結果應用程序可能具有挑戰性。
4 數據責任化工具
數據責任化工具為數據的收集、使用提供了新的控制方式,為數據交易提供了透明度和可追溯性。從底層原理上來說,數據責任化工具通常不被視為隱私增強技術,因為它們的主要目標不在于在技術層面上保護個人數據的機密性。之所以它們經常與隱私增強技術聯系在一起,是因為它們通過提供新的方式來要求和執行數據處理的規定,或者為組織和個人提供更多的自主權和對數據的控制。報告中主要介紹『可問責系統』、『門限秘密共享』『個人信息管理系統』三種典型技術。
01
關鍵技術
1.可問責系統:可問責系統是管理數據使用和共享的軟件系統,并跟蹤合規性。它們控制和跟蹤數據的收集方式、處理方式和使用時機。可問責系統設計的一個重要目標是授予數據訪問權限,并將限制與數據相關聯并遵循數據規范。
可問責系統可以通過強制執行規則和跟蹤個人數據使用的合規性來增強隱私和數據保護。可以利用分布式賬本技術(DLTs),如區塊鏈,以確保記錄數據的不可變性(即在記錄數據后無法對其進行后期更改)。當用于可問責系統時,私有DLTs為數據訪問、傳輸或處理提供了安全、不可變的記錄。
這并不意味著DLTs就是PETs,事實上,DLTs的使用,尤其是區塊鏈,甚至可能對隱私和數據保護帶來風險和挑戰。《經濟合作與發展組織》(OECD)2022年關于區塊鏈和其他分布式賬本技術的建議承認“區塊鏈具有一定的局限性和風險,其中一些是特定于區塊鏈的,而其他一些則與數字技術更廣泛相關,例如與隱私和安全、訪問憑證的保管以及密碼學漏洞相關的風險”。
2.門限秘密共享(TSS) - 也被稱為多方計算門限簽名(MPCts):這種加密工具需要預先確定的數量的密鑰來解鎖加密數據。它類似于一個由多個獨立鎖鎖住的安全箱,密鑰由不同的人持有,只有預定數量的密鑰持有者同意使用他們的密鑰才能打開它。
門限秘密共享可以增強隱私和數據保護,因為它可以在數據可供數據控制者訪問之前設置必須達到的門檻。這些門檻可以由數據主體協商和設定,或者通過法規設定。目前,云平臺上提供了針對特定用例的門限秘密共享服務。目前,它們的應用范圍較窄。由于加密的開銷,門限秘密共享在處理大型數據集時性能較慢。目前的應用主要針對較小規模的數據。
3.個人信息管理系統:當前的數據處理技術要求組織收集個人數據并將其存儲在一個大型數據集中,然后可以用于處理這些數據。而個人數據存儲改變了這一范式。它們將個人數據存儲的控制權交給個人,個人可以選擇數據的存儲位置、訪問方式和處理方式。
個人數據存儲的部署和采用面臨一些重要挑戰。首先,一些個人數據存儲的部署將更多的數據安全責任放在數據主體身上,而不是數據控制者/數據處理者身上,后者擁有更多資源和經驗來保護數據。同時,由于最大的數據平臺可能不愿放棄當前的數據治理范式,采用個人數據存儲也存在重大障礙。
02
應用場景
場景一:為數據主體提供對其自身數據的控制:“數據責任PETs”的一個關鍵優點是承諾能夠讓數據主體在特定情況下對其數據擁有終極控制權。這確保了數據僅用于經批準的目的,并由獲得授權的人使用。例如,在某個系統設計中,數據主體在其控制下的服務器上保留了所有個人照片的控制權。任何外部用戶,如社交媒體平臺,需要從數據主體的服務器(個人數據存儲)獲取訪問權限,然后才能將這些照片顯示給其他用戶。這種結構將為數據主體提供對個人數據如何以及何時使用的細粒度控制。在另一種情況下,負責任的系統將為數據附加“策略”,以規定數據的使用時間和方式。
場景二:設定和執行有關數據訪問的規則:負責任的系統和TSS都會分配并執行有關數據訪問的規則。監管機構可以對數據的使用時間施加限制。這些限制可以通過數據策略附加到數據上,并由未來的負責任系統執行。TSS系統還可以通過要求預定數量的密鑰來執行數據訪問規則,以解密數據。
場景三:不可變地跟蹤數據訪問、轉移和處理:DLT的一個重要潛在好處是其能夠跟蹤數據控制者持有的個人數據的任何訪問、轉移和處理。如果這些與數據相關的活動記錄是不可變的,它可以防止未經授權的使用,并在檢查不當訪問時用作審計追蹤。
03
難點和限制
1.使用案例不多:盡管大多數行業的市場參與者都在考慮是否可以在自己的環境中有效部署區塊鏈等工具,但目前落地案例不多。
2.缺乏獨立應用:可問責系統通常作為較大系統中的一個組成部分進行部署。因此它們必須作為組件進行評估,同時還要考慮它們在更大系統中的功能和相互作用。一個個體工具可能在安全性方面是安全的,但如果在較大系統中實施不當,可能會泄露數據。
3.配置復雜性:負責任工具承諾為數據主體提供更細粒度的數據控制,但這種控制帶來了增加的復雜性。研究人員已經表明,隨著復雜性的增加,系統的可理解性會降低。這反過來可能導致不可管理性和不可預測性。
4.數字安全挑戰:特別是個人數據存儲帶來了保護個人數據的新安全挑戰。它們將保護數據的責任從數據控制者轉移到數據主體或第三方。
5.采用基于DLT的負責任工具受限并帶來與隱私相關的挑戰:DLT通常比集中式數據庫更慢且效率低下。一些DLT的透明性也可能引發與涉及個人的隱私相關的擔憂,即使使用私有區塊鏈也是如此。這引發了潛在的隱私和數據保護(合規)挑戰,并限制了可以采用于負責任工具的DLT的范圍,或者需要與其他PETs的組合使用。
5 總結
隨著數字化時代的發展,PETs作為保護個人數據和平衡數據可用性與隱私之間關系的關鍵解決方案,將在各個領域得到廣泛應用。然而,PETs仍面臨復雜配置、安全性風險和技術采用等挑戰,需要持續研究創新和加強政策框架與合作,以實現PETs的潛力并建立可信賴的數字生態系統,確保個人數據的保護和創新共存。關注“開放隱私計算”,時刻關注技術最新進展。