資料科學中隱私保護要點
心法
- 差分隱私(Differential Privacy) - 在釋出統計資料前添加雜訊,使任一個體的資訊不會被明確識別。
- 加密(Encryption) - 加密個資,避免未授權第三方讀取。
- 匿名化(Anonymization) - 去除資料中PII。
- 資料去識別化(De-identification) - 匿名化但保留資料統計特性。
- 資料聚合(Data Aggregation) - 將資料進行合併,避免單個資料點的識別。
- 資料遮罩(Data Masking) - 對敏感資料的部分內容進行遮蔽,像OO姓名。
- 管控資料存取(Access Control) - 資料的存取只供授權用戶使用。
- 資料最小化(Data Minimization) - 僅收集達成分析目的所需的最少資料。
- 記錄審計(Logging and Auditing) - 記錄資料的存取和使用,以确保符合隱私規範。
- 使用生成資料(Synthetic Data) - 統計真實資料,用GAN之類演算法依分佈生成資料。
招式
Java
- OpenDP - Google開源的差分隱私庫。
- ARX - 数据匿名化和脫敏的工具。
- Apache Spark - 提供資料存取控制和權限管理。
- Pyramid - 進行加密和權限控管的大資料平台。
- SecureDB - 數據庫欄位級加密工具。
- Privitar - 數據匿名處理和tokenizing工具。
- Anon - 匿名化工具庫。
- SDC - 靜態和動態數據遮蔽工具。
Python
- PySyft - 提供差分隱私和保護聯邦學習隱私的工具。
- DifferentialPrivacy - 數值差分隱私算法的實現。
- ARX - 数据匿名化和脫敏的工具。
- Pyspark - Spark的Python API,可以管理資料存取權限。
如果你覺得這篇文章很棒,請你不吝點讚 (゚∀゚)