读数据科学伦理：概念、技术和警世故事08隐私保护数据挖掘

琪琪爱走路 發表於 2025-5-18 08:20:00

读数据科学伦理：概念、技术和警世故事08隐私保护数据挖掘

<img alt="" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202505/3076680-20250508151227962-1504196119.png" class="lazyload">
<h1 id="1ε-差分隐私">1. ε-差分隐私</h1>
1.1. 差分隐私的概念是由辛西娅·德沃克(Cynthia Dwork)提出的，是数据科学的黄金标准之一，它将隐私纳入其中
1.2. 差分隐私的目标是让社会科学家共享有用的统计数据，这些统计数据与敏感数据库有关
<ul>
<li>
1.2.1. 如果不考虑隐私问题便回答，就可能会泄露私人敏感信息
</li>
<li>
1.2.2. 采用k-匿名方法查看数据，背景信息也会泄露个人信息
</li>
</ul>
1.3. 去中心化差分隐私
<ul>
<li>
1.3.1. 在记录数据时添加噪声
</li>
<li>
1.3.2. 去中心化差分隐私需在记录数据前添加噪声
</li>
<li>
1.3.3. 如果数据面临巨大安全风险，则选择去中心化差分隐私技术，如谷歌公司和苹果公司的应用案例
</li>
</ul>
1.4. 中心化差分隐私
<ul>
<li>
1.4.1. 在结果中添加噪声后，再将其提供给局外人
</li>
<li>
1.4.2. 相比于局外人，人们更相信数据分析师
</li>
<li>
1.4.3. 中心化差分隐私是直接在结果中添加噪声
</li>
<li>
1.4.4. 中心化差分隐私需要人们相信数据分析师，但去中心差分隐私则无此要求
</li>
<li>
1.4.5. 如果数据泄露风险有限，则选择中心化差分隐私技术
</li>
</ul>
1.5. 这两种差分隐私的选用取决于记录数据面临的风险，如遭到黑客攻击、传唤，或者数据分析师内部员工未经允许查看数据等
1.6. ε-差分隐私：“算法的一种属性，即无论使用数据集与否，其结果基本相同。”
1.7. ε-差分隐私基本原则
<ul>
<li>1.7.1. 无论算法使用个人数据与否，其结果应基本相同</li>
</ul>
1.8. ε-正式定义：“如果两个数据集D和D'只有一个数据实例不同，算法A可能得出的所有结果S满足以下公式：P≤e^ε·P'其中，ε≥0。”
1.9. 隐私参数ε
<ul>
<li>
1.9.1. 衡量隐私损失
</li>
<li>
1.9.2. ε参数被称为隐私损失参数
</li>
<li>
1.9.3. ε数值越小，隐私保护性就越好，无论是否使用个人数据，结果变动的概率都会越来越小
</li>
<li>
1.9.4. 如果ε趋向于零，结果就是概率需要完全相同，只有数据全都是噪声，而无任何信号时，这种情况才会发生
</li>
<li>
1.9.5. 当ε=0时，隐私得到完全保护，算法输出的结果无法反映出数据集的任何有用信息
<ul>
<li>1.9.5.1. 相反，ε数值越大，隐私保护性就越差</li>
</ul>
</li>
</ul>
1.10. 拉普拉斯分布噪声
<ul>
<li>1.10.1. 平均值为0，标准差为1/ε</li>
</ul>
1.11. 经验法则一，ε取值一般在0.001到1之间
<ul>
<li>1.11.1. 差分隐私需要增加最小数据集所包含的记录，以提供准确结果</li>
</ul>
1.12. 经验法则二，即“若数据集的记录不超过1/ε条，则算法输出的结果几乎无法反映出数据集的任何有用信息”
1.13. 如果我们反复回答同一个问题，平均答案就会演变为真实答案，因为噪声的平均值为0
<ul>
<li>1.13.1. 隐私风险随着分析次数的增多而变高</li>
</ul>
1.14. 差分隐私具有组合特性，即随着查询分析次数的增多，隐私泄露风险也会渐渐增加
<ul>
<li>
1.14.1. 如果存在两种算法，分别满足ε1和ε2差分隐私，那组合后的算法仍满足ε-差分隐私，其中ε=ε1+ε2
</li>
<li>
1.14.2. 如果你总共想向外界宣布k次结果，且总体隐私预算为ε，那单次研究必须对应一个隐私参数ε/k
</li>
</ul>
1.15. 差分隐私聚类技术、差分隐私回归技术以及差分隐私分类技术
1.16. 差分隐私是一种前瞻性技术
<ul>
<li>
1.16.1. 根据差分隐私的定义，无论是何种背景信息，采用何种计算资源或其他科学技术，差分隐私所给出的数学保证(mathematical guarantee)都是可以成立的
</li>
<li>
1.16.2. 但差分隐私无法保证通过分析预测一些敏感属性
</li>
<li>
1.16.3. 差分隐私技术利用隐私友好的总体计算数据作为主要用例，通过添加智能噪声来为算法提供前瞻性隐私保护
</li>
</ul>
<h1 id="2零知识证明">2. 零知识证明</h1>
2.1. 零知识证明方法即一方向另一方证明某秘密命题，而不泄露任何信息
<ul>
<li>2.1.1. 零知识证明应用价值极大，可以在不泄露秘密的前提下，证明有关该秘密的某些命题</li>
</ul>
2.2. 例1
<ul>
<li>
2.2.1. 假设你从一副牌的52张中抽出1张
</li>
<li>
2.2.2. 你要证明的命题是：“我拿的是红牌”，而秘密是你手中的牌究竟是不是红色的
</li>
<li>
2.2.3. 如何向验证者证明你确实拿的是红牌呢？
<ul>
<li>2.2.3.1. 零知识证明正是这样的协议，即简单浏览剩余所有牌，并展示出所有26张黑牌。因为所有黑牌均已公开，这便证明你拿的是红牌</li>
</ul>
</li>
</ul>
2.3. 例2
<ul>
<li>
2.3.1. 插画家马丁·汉德福(Martin Handford)的作品《瓦尔多在哪》(Where is Waldo？)
</li>
<li>
2.3.2. 人们需要在一张大插画中找到小人物瓦尔多
</li>
<li>
2.3.3. 你要证明的命题是：“我知道瓦尔多在插画中的位置”，而秘密是瓦尔多的具体位置
</li>
<li>
2.3.4. 零知识证明便涉及一张大木板，其宽和高均为插画的两倍
<ul>
<li>
2.3.4.1. 木板中央有一个小缺口，这个小缺口有瓦尔多人物的大小
</li>
<li>
2.3.4.2. 你将木板放置在插画上，缺口正对着瓦尔多，便可证明你确实知道瓦尔多在插画中的位置（因为他已经暴露出来了），而且这样也没有准确展示出其具体位置（因为木板覆盖了插画其余部分，甚至连插画边缘也毫无外露）
</li>
</ul>
</li>
</ul>
2.4. 零知识证明能够通过证明的形式分析个人数据，同时保护数据主体的隐私安全，所以深受大众欢迎
2.5. 需要满足三大标准
<ul>
<li>
2.5.1. 完整性：如果命题为真，诚实的证明者（正确遵循协议的一方）能够完全说服验证者相信该事实
</li>
<li>
2.5.2. 合理性：如果命题为假，作弊的证明者几乎无法说服诚实的验证者相信该命题的真实性
</li>
<li>
2.5.3. 零知识性：如果命题为真，验证者验证后只能知道命题为真，其他一概不知（因为秘密未曾揭露）
</li>
</ul>
2.6. 零范围证明
<ul>
<li>
2.6.1. 零范围证明旨在证明数值在某个范围内，而无须透露确切数值
</li>
<li>
2.6.2. 零范围证明具有重要的应用价值
</li>
<li>
2.6.3. 模型对象既没有泄露数据，还能得到评分
</li>
</ul>
2.7. 这类证明机制还可广泛用于加密货币，增加日常交易的隐私性
2.8. 比特币采用假名制
<ul>
<li>
2.8.1. 发送者和接收者可以利用零知识证明来保护交易金额不被泄露
</li>
<li>
2.8.2. Z-cash是一种加密货币，利用零知识证明机制来实现匿名交易
</li>
</ul>
2.9. 零知识证明有望在未来实现隐私和个人数据使用的同步
2.10. 零知识证明分别向证明者和验证者提供了一个答案
<h1 id="3同态加密">3. 同态加密</h1>
3.1. 同态加密技术可以对受保护数据进行计算
3.2. 随着云计算的日益普及，同态加密作为实现数据保护的关键技术，得到了广泛应用
<ul>
<li>3.2.1. 未来云计算领域的重要组成技术</li>
</ul>
3.3. 一旦要对这些数据进行一些计算，我们就必须在计算前把数据解密
<ul>
<li>
3.3.1. 那时，数据被透露给服务器，变得不再安全
</li>
<li>
3.3.2. 需要使用同态加密技术加强数据保护
</li>
</ul>
3.4. 同态加密是一种加密形式，可以直接对加密数据本身执行计算
3.5. 银行可以将客户的所有个人数据及金融交易信息发至云端，无须解密便可利用云计算服务来每天计算客户的信用评分
3.6. 目前还无法将“全同态加密”(FHE)方案投入实际应用
3.7. 通过全同态加密，我们可以对密文数据执行任何操作
3.8. 2009年，克雷格·金特里(Craig Gentry)在斯坦福大学进行的博士研究中，开创性地提出了一种理论方法，可以执行“全同态加密”
<ul>
<li>3.8.1. 全同态加密方案还具备另一个优势，即它基于晶格实现加密，而非大整数分解，这表示全同态加密方案在量子计算时代也可以保证数据隐私安全</li>
</ul>
3.9. “部分同态加密”方案，即RSA算法
<ul>
<li>3.9.1. 部分同态加密(PHE)方案只允许在密文数据上进行一种特定运算</li>
</ul>
3.10. 同态加密技术对大数据研究也大有裨益
<ul>
<li>
3.10.1. 很多应用程序往往具有大数据集，其中包含众多个人及敏感数据，例如脸书的点赞、银行付款数据、各大网站的在线浏览数据等，但这些数据共享受到了极大限制
</li>
<li>
3.10.2. 研究人员可以应用全同态加密方案来直接处理密文数据，而无须泄露任何个人数据
</li>
</ul>
3.11. 全同态加密技术前景广阔，而且在计算速度方面取得了很大进步
<h1 id="4安全多方计算">4. 安全多方计算</h1>
4.1. 安全多方计算(SMPC)旨在保护人们的隐私安全，且在无可信第三方参与的情况下，进行同等精确计算
4.2. 安全多方通信允许m方在无第三方参与的情况下，共同对密文数据进行分析
4.3. 该方法应用广泛，如计算各方选票，而不透露任何一方的具体数值；再或者，拍卖会上只透露中标结果，而不公开各竞标者的出价
4.4. “安全多方计算”概念由姚期智于1982年提出
4.5. 在分布式环境中，m方参与者P1，P2，…，Pm无须可信第三方参与，各自秘密输入信息x1，x2，…，xm，共同参与计算目标函数f(x1, x2, …, xm)
4.6. 计算结束后，各方参与者获得与之相对应准确且不包含其他信息的输出结果
4.7. “安全通信”是一种个人隐私保护方法，在无可信第三方参与的情况下，进行数据分析
4.8. “多方”指提供秘密数据的众多参与者
4.9. 隐私保护集合交集(Private Set Intersection)便属于该领域的一个特定应用类型
4.10. 丹麦最早使用安全多方计算技术来拍卖甜菜，计算市场均衡时甜菜的价格，这是安全多方计算技术首次应用于商业领域
4.11. 如果无法在标识符（具有散列值）数据集中找到散列，那么几乎不可能知道标识符代表的是什么
<ul>
<li>4.11.1. 散列是单向函数</li>
</ul>
4.12. 安全多方计算协议有不同的应用场景，只要各方希望在共享的个人数据上执行计算，这类协议对数据科学伦理领域的优点就会显现出来
<h1 id="5联邦学习">5. 联邦学习</h1>
5.1. 联邦学习需要第三方参与，从而保证各参与方数据的隐私安全
5.2. 联邦学习是一种分布式机器学习技术，旨在训练高质量集中式模型的同时，使训练数据仍分布在大量客户端上
5.3. 联邦学习通过共享数据科学模型，而非数据来实现目标
5.4. 尽管敏感数据一直保留在设备上，但仍存在隐私泄露的风险
5.5. 将联邦学习与安全多方计算和差分隐私技术结合起来，可以进一步提高隐私安全性
<h1 id="6总结">6. 总结</h1>
6.1. 在差分隐私、零知识证明和同态加密技术中，存在着两方：一方掌握秘密或个人数据，另一方进行一些分析
6.2. 存在多方，且各方都有一些不希望与其他方共享的个人数据，但使用和分析各方的个人数据能给各方都带来好处
<ul>
<li>6.2.1. 一种办法就是跟可信第三方合作</li>
</ul>
6.3. 其关键区别在于安装、参与方数量、预想的计算类型及相关用例
<ul>
<li>6.3.1. 只有零知识证明和同态加密两种方法可以完美保证隐私安全，但目前很难得到实际应用</li>
</ul>
6.4. <img alt="" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202505/3076680-20250508151726980-1555135460.png" class="lazyload"> 
来源：https://www.cnblogs.com/lying7/p/18866374

頁: [1]

圆梦公社's Archiver

读数据科学伦理：概念、技术和警世故事08隐私保护数据挖掘