琪琪爱走路 發表於 2025-5-18 08:20:00

读数据科学伦理:概念、技术和警世故事08隐私保护数据挖掘

<p><img alt="" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202505/3076680-20250508151227962-1504196119.png" class="lazyload"></p>
<h1 id="1ε-差分隐私">1.&nbsp;ε-差分隐私</h1>
<p>1.1.&nbsp;差分隐私的概念是由辛西娅·德沃克(Cynthia Dwork)提出的,是数据科学的黄金标准之一,它将隐私纳入其中</p>
<p>1.2.&nbsp;差分隐私的目标是让社会科学家共享有用的统计数据,这些统计数据与敏感数据库有关</p>
<ul>
<li>
<p>1.2.1.&nbsp;如果不考虑隐私问题便回答,就可能会泄露私人敏感信息</p>
</li>
<li>
<p>1.2.2.&nbsp;采用k-匿名方法查看数据,背景信息也会泄露个人信息</p>
</li>
</ul>
<p>1.3.&nbsp;去中心化差分隐私</p>
<ul>
<li>
<p>1.3.1.&nbsp;在记录数据时添加噪声</p>
</li>
<li>
<p>1.3.2.&nbsp;去中心化差分隐私需在记录数据前添加噪声</p>
</li>
<li>
<p>1.3.3.&nbsp;如果数据面临巨大安全风险,则选择去中心化差分隐私技术,如谷歌公司和苹果公司的应用案例</p>
</li>
</ul>
<p>1.4.&nbsp;中心化差分隐私</p>
<ul>
<li>
<p>1.4.1.&nbsp;在结果中添加噪声后,再将其提供给局外人</p>
</li>
<li>
<p>1.4.2.&nbsp;相比于局外人,人们更相信数据分析师</p>
</li>
<li>
<p>1.4.3.&nbsp;中心化差分隐私是直接在结果中添加噪声</p>
</li>
<li>
<p>1.4.4.&nbsp;中心化差分隐私需要人们相信数据分析师,但去中心差分隐私则无此要求</p>
</li>
<li>
<p>1.4.5.&nbsp;如果数据泄露风险有限,则选择中心化差分隐私技术</p>
</li>
</ul>
<p>1.5.&nbsp;这两种差分隐私的选用取决于记录数据面临的风险,如遭到黑客攻击、传唤,或者数据分析师内部员工未经允许查看数据等</p>
<p>1.6.&nbsp;ε-差分隐私:​“算法的一种属性,即无论使用数据集与否,其结果基本相同。​”</p>
<p>1.7.&nbsp;ε-差分隐私基本原则</p>
<ul>
<li>1.7.1.&nbsp;无论算法使用个人数据与否,其结果应基本相同</li>
</ul>
<p>1.8.&nbsp;ε-正式定义:​“如果两个数据集D和D'只有一个数据实例不同,算法A可能得出的所有结果S满足以下公式:P≤e^ε·P'其中,ε≥0。​”</p>
<p>1.9.&nbsp;隐私参数ε</p>
<ul>
<li>
<p>1.9.1.&nbsp;衡量隐私损失</p>
</li>
<li>
<p>1.9.2.&nbsp;ε参数被称为隐私损失参数</p>
</li>
<li>
<p>1.9.3.&nbsp;ε数值越小,隐私保护性就越好,无论是否使用个人数据,结果变动的概率都会越来越小</p>
</li>
<li>
<p>1.9.4.&nbsp;如果ε趋向于零,结果就是概率需要完全相同,只有数据全都是噪声,而无任何信号时,这种情况才会发生</p>
</li>
<li>
<p>1.9.5.&nbsp;当ε=0时,隐私得到完全保护,算法输出的结果无法反映出数据集的任何有用信息</p>
<ul>
<li>1.9.5.1.&nbsp;相反,ε数值越大,隐私保护性就越差</li>
</ul>
</li>
</ul>
<p>1.10.&nbsp;拉普拉斯分布噪声</p>
<ul>
<li>1.10.1.&nbsp;平均值为0,标准差为1/ε</li>
</ul>
<p>1.11.&nbsp;经验法则一,ε取值一般在0.001到1之间</p>
<ul>
<li>1.11.1.&nbsp;差分隐私需要增加最小数据集所包含的记录,以提供准确结果</li>
</ul>
<p>1.12.&nbsp;经验法则二,即“若数据集的记录不超过1/ε条,则算法输出的结果几乎无法反映出数据集的任何有用信息”​</p>
<p>1.13.&nbsp;如果我们反复回答同一个问题,平均答案就会演变为真实答案,因为噪声的平均值为0</p>
<ul>
<li>1.13.1.&nbsp;隐私风险随着分析次数的增多而变高</li>
</ul>
<p>1.14.&nbsp;差分隐私具有组合特性,即随着查询分析次数的增多,隐私泄露风险也会渐渐增加</p>
<ul>
<li>
<p>1.14.1.&nbsp;如果存在两种算法,分别满足ε1和ε2差分隐私,那组合后的算法仍满足ε-差分隐私,其中ε=ε1+ε2</p>
</li>
<li>
<p>1.14.2.&nbsp;如果你总共想向外界宣布k次结果,且总体隐私预算为ε,那单次研究必须对应一个隐私参数ε/k</p>
</li>
</ul>
<p>1.15.&nbsp;差分隐私聚类技术、差分隐私回归技术以及差分隐私分类技术</p>
<p>1.16.&nbsp;差分隐私是一种前瞻性技术</p>
<ul>
<li>
<p>1.16.1.&nbsp;根据差分隐私的定义,无论是何种背景信息,采用何种计算资源或其他科学技术,差分隐私所给出的数学保证(mathematical guarantee)都是可以成立的</p>
</li>
<li>
<p>1.16.2.&nbsp;但差分隐私无法保证通过分析预测一些敏感属性</p>
</li>
<li>
<p>1.16.3.&nbsp;差分隐私技术利用隐私友好的总体计算数据作为主要用例,通过添加智能噪声来为算法提供前瞻性隐私保护</p>
</li>
</ul>
<h1 id="2零知识证明">2.&nbsp;零知识证明</h1>
<p>2.1.&nbsp;零知识证明方法即一方向另一方证明某秘密命题,而不泄露任何信息</p>
<ul>
<li>2.1.1.&nbsp;零知识证明应用价值极大,可以在不泄露秘密的前提下,证明有关该秘密的某些命题</li>
</ul>
<p>2.2.&nbsp;例1</p>
<ul>
<li>
<p>2.2.1.&nbsp;假设你从一副牌的52张中抽出1张</p>
</li>
<li>
<p>2.2.2.&nbsp;你要证明的命题是:​“我拿的是红牌”​,而秘密是你手中的牌究竟是不是红色的</p>
</li>
<li>
<p>2.2.3.&nbsp;如何向验证者证明你确实拿的是红牌呢?</p>
<ul>
<li>2.2.3.1.&nbsp;零知识证明正是这样的协议,即简单浏览剩余所有牌,并展示出所有26张黑牌。因为所有黑牌均已公开,这便证明你拿的是红牌</li>
</ul>
</li>
</ul>
<p>2.3.&nbsp;例2</p>
<ul>
<li>
<p>2.3.1.&nbsp;插画家马丁·汉德福(Martin Handford)的作品《瓦尔多在哪》(Where is Waldo?)</p>
</li>
<li>
<p>2.3.2.&nbsp;人们需要在一张大插画中找到小人物瓦尔多</p>
</li>
<li>
<p>2.3.3.&nbsp;你要证明的命题是:​“我知道瓦尔多在插画中的位置”​,而秘密是瓦尔多的具体位置</p>
</li>
<li>
<p>2.3.4.&nbsp;零知识证明便涉及一张大木板,其宽和高均为插画的两倍</p>
<ul>
<li>
<p>2.3.4.1.&nbsp;木板中央有一个小缺口,这个小缺口有瓦尔多人物的大小</p>
</li>
<li>
<p>2.3.4.2.&nbsp;你将木板放置在插画上,缺口正对着瓦尔多,便可证明你确实知道瓦尔多在插画中的位置(因为他已经暴露出来了)​,而且这样也没有准确展示出其具体位置(因为木板覆盖了插画其余部分,甚至连插画边缘也毫无外露)​</p>
</li>
</ul>
</li>
</ul>
<p>2.4.&nbsp;零知识证明能够通过证明的形式分析个人数据,同时保护数据主体的隐私安全,所以深受大众欢迎</p>
<p>2.5.&nbsp;需要满足三大标准</p>
<ul>
<li>
<p>2.5.1.&nbsp;完整性:如果命题为真,诚实的证明者(正确遵循协议的一方)能够完全说服验证者相信该事实</p>
</li>
<li>
<p>2.5.2.&nbsp;合理性:如果命题为假,作弊的证明者几乎无法说服诚实的验证者相信该命题的真实性</p>
</li>
<li>
<p>2.5.3.&nbsp;零知识性:如果命题为真,验证者验证后只能知道命题为真,其他一概不知(因为秘密未曾揭露)​</p>
</li>
</ul>
<p>2.6.&nbsp;零范围证明</p>
<ul>
<li>
<p>2.6.1.&nbsp;零范围证明旨在证明数值在某个范围内,而无须透露确切数值</p>
</li>
<li>
<p>2.6.2.&nbsp;零范围证明具有重要的应用价值</p>
</li>
<li>
<p>2.6.3.&nbsp;模型对象既没有泄露数据,还能得到评分</p>
</li>
</ul>
<p>2.7.&nbsp;这类证明机制还可广泛用于加密货币,增加日常交易的隐私性</p>
<p>2.8.&nbsp;比特币采用假名制</p>
<ul>
<li>
<p>2.8.1.&nbsp;发送者和接收者可以利用零知识证明来保护交易金额不被泄露</p>
</li>
<li>
<p>2.8.2.&nbsp;Z-cash是一种加密货币,利用零知识证明机制来实现匿名交易</p>
</li>
</ul>
<p>2.9.&nbsp;零知识证明有望在未来实现隐私和个人数据使用的同步</p>
<p>2.10.&nbsp;零知识证明分别向证明者和验证者提供了一个答案</p>
<h1 id="3同态加密">3.&nbsp;同态加密</h1>
<p>3.1.&nbsp;同态加密技术可以对受保护数据进行计算</p>
<p>3.2.&nbsp;随着云计算的日益普及,同态加密作为实现数据保护的关键技术,得到了广泛应用</p>
<ul>
<li>3.2.1.&nbsp;未来云计算领域的重要组成技术</li>
</ul>
<p>3.3.&nbsp;一旦要对这些数据进行一些计算,我们就必须在计算前把数据解密</p>
<ul>
<li>
<p>3.3.1.&nbsp;那时,数据被透露给服务器,变得不再安全</p>
</li>
<li>
<p>3.3.2.&nbsp;需要使用同态加密技术加强数据保护</p>
</li>
</ul>
<p>3.4.&nbsp;同态加密是一种加密形式,可以直接对加密数据本身执行计算</p>
<p>3.5.&nbsp;银行可以将客户的所有个人数据及金融交易信息发至云端,无须解密便可利用云计算服务来每天计算客户的信用评分</p>
<p>3.6.&nbsp;目前还无法将“全同态加密”(FHE)方案投入实际应用</p>
<p>3.7.&nbsp;通过全同态加密,我们可以对密文数据执行任何操作</p>
<p>3.8.&nbsp;2009年,克雷格·金特里(Craig Gentry)在斯坦福大学进行的博士研究中,开创性地提出了一种理论方法,可以执行“全同态加密”​</p>
<ul>
<li>3.8.1.&nbsp;全同态加密方案还具备另一个优势,即它基于晶格实现加密,而非大整数分解,这表示全同态加密方案在量子计算时代也可以保证数据隐私安全</li>
</ul>
<p>3.9.&nbsp;“部分同态加密”方案,即RSA算法</p>
<ul>
<li>3.9.1.&nbsp;部分同态加密(PHE)方案只允许在密文数据上进行一种特定运算</li>
</ul>
<p>3.10.&nbsp;同态加密技术对大数据研究也大有裨益</p>
<ul>
<li>
<p>3.10.1.&nbsp;很多应用程序往往具有大数据集,其中包含众多个人及敏感数据,例如脸书的点赞、银行付款数据、各大网站的在线浏览数据等,但这些数据共享受到了极大限制</p>
</li>
<li>
<p>3.10.2.&nbsp;研究人员可以应用全同态加密方案来直接处理密文数据,而无须泄露任何个人数据</p>
</li>
</ul>
<p>3.11.&nbsp;全同态加密技术前景广阔,而且在计算速度方面取得了很大进步</p>
<h1 id="4安全多方计算">4.&nbsp;安全多方计算</h1>
<p>4.1.&nbsp;安全多方计算(SMPC)旨在保护人们的隐私安全,且在无可信第三方参与的情况下,进行同等精确计算</p>
<p>4.2.&nbsp;安全多方通信允许m方在无第三方参与的情况下,共同对密文数据进行分析</p>
<p>4.3.&nbsp;该方法应用广泛,如计算各方选票,而不透露任何一方的具体数值;再或者,拍卖会上只透露中标结果,而不公开各竞标者的出价</p>
<p>4.4.&nbsp;“安全多方计算”概念由姚期智于1982年提出</p>
<p>4.5.&nbsp;在分布式环境中,m方参与者P1,P2,…,Pm无须可信第三方参与,各自秘密输入信息x1,x2,…,xm,共同参与计算目标函数f(x1, x2, …, xm)</p>
<p>4.6.&nbsp;计算结束后,各方参与者获得与之相对应准确且不包含其他信息的输出结果</p>
<p>4.7.&nbsp;​“安全通信”是一种个人隐私保护方法,在无可信第三方参与的情况下,进行数据分析</p>
<p>4.8.&nbsp;“多方”指提供秘密数据的众多参与者</p>
<p>4.9.&nbsp;隐私保护集合交集(Private Set Intersection)便属于该领域的一个特定应用类型</p>
<p>4.10.&nbsp;丹麦最早使用安全多方计算技术来拍卖甜菜,计算市场均衡时甜菜的价格,这是安全多方计算技术首次应用于商业领域</p>
<p>4.11.&nbsp;如果无法在标识符(具有散列值)数据集中找到散列,那么几乎不可能知道标识符代表的是什么</p>
<ul>
<li>4.11.1.&nbsp;散列是单向函数</li>
</ul>
<p>4.12.&nbsp;安全多方计算协议有不同的应用场景,只要各方希望在共享的个人数据上执行计算,这类协议对数据科学伦理领域的优点就会显现出来</p>
<h1 id="5联邦学习">5.&nbsp;联邦学习</h1>
<p>5.1.&nbsp;联邦学习需要第三方参与,从而保证各参与方数据的隐私安全</p>
<p>5.2.&nbsp;联邦学习是一种分布式机器学习技术,旨在训练高质量集中式模型的同时,使训练数据仍分布在大量客户端上</p>
<p>5.3.&nbsp;联邦学习通过共享数据科学模型,而非数据来实现目标</p>
<p>5.4.&nbsp;尽管敏感数据一直保留在设备上,但仍存在隐私泄露的风险</p>
<p>5.5.&nbsp;将联邦学习与安全多方计算和差分隐私技术结合起来,可以进一步提高隐私安全性</p>
<h1 id="6总结">6.&nbsp;总结</h1>
<p>6.1.&nbsp;在差分隐私、零知识证明和同态加密技术中,存在着两方:一方掌握秘密或个人数据,另一方进行一些分析</p>
<p>6.2.&nbsp;存在多方,且各方都有一些不希望与其他方共享的个人数据,但使用和分析各方的个人数据能给各方都带来好处</p>
<ul>
<li>6.2.1.&nbsp;一种办法就是跟可信第三方合作</li>
</ul>
<p>6.3.&nbsp;其关键区别在于安装、参与方数量、预想的计算类型及相关用例</p>
<ul>
<li>6.3.1.&nbsp;只有零知识证明和同态加密两种方法可以完美保证隐私安全,但目前很难得到实际应用</li>
</ul>
<p>6.4.&nbsp;<img alt="" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202505/3076680-20250508151726980-1555135460.png" class="lazyload"></p><br><br>
来源:https://www.cnblogs.com/lying7/p/18866374
頁: [1]
查看完整版本: 读数据科学伦理:概念、技术和警世故事08隐私保护数据挖掘