Lunski's Clutter

This is a place to put my clutters, no matter you like it or not, welcome here.

0%

資料科學中的隱私保護

資料科學中隱私保護要點

心法

  1. 差分隱私(Differential Privacy) - 在釋出統計資料前添加雜訊,使任一個體的資訊不會被明確識別。
  2. 加密(Encryption) - 加密個資,避免未授權第三方讀取。
  3. 匿名化(Anonymization) - 去除資料中PII。
  4. 資料去識別化(De-identification) - 匿名化但保留資料統計特性。
  5. 資料聚合(Data Aggregation) - 將資料進行合併,避免單個資料點的識別。
  6. 資料遮罩(Data Masking) - 對敏感資料的部分內容進行遮蔽,像OO姓名。
  7. 管控資料存取(Access Control) - 資料的存取只供授權用戶使用。
  8. 資料最小化(Data Minimization) - 僅收集達成分析目的所需的最少資料。
  9. 記錄審計(Logging and Auditing) - 記錄資料的存取和使用,以确保符合隱私規範。
  10. 使用生成資料(Synthetic Data) - 統計真實資料,用GAN之類演算法依分佈生成資料。

招式

  • Java

    • OpenDP - Google開源的差分隱私庫。
    • ARX - 数据匿名化和脫敏的工具。
    • Apache Spark - 提供資料存取控制和權限管理。
    • Pyramid - 進行加密和權限控管的大資料平台。
    • SecureDB - 數據庫欄位級加密工具。
    • Privitar - 數據匿名處理和tokenizing工具。
    • Anon - 匿名化工具庫。
    • SDC - 靜態和動態數據遮蔽工具。
  • Python

    • PySyft - 提供差分隱私和保護聯邦學習隱私的工具。
    • DifferentialPrivacy - 數值差分隱私算法的實現。
    • ARX - 数据匿名化和脫敏的工具。
    • Pyspark - Spark的Python API,可以管理資料存取權限。

如果你覺得這篇文章很棒,請你不吝點讚 (゚∀゚)

Welcome to my other publishing channels