读数据科学伦理：概念、技术和警世故事04隐私保护机制

金樽独饮空对月 發表於 2025-5-14 06:41:00

读数据科学伦理：概念、技术和警世故事04隐私保护机制

<img alt="" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202505/3076680-20250506160049353-1386563471.png" class="lazyload">
<h1 id="1加密">1. 加密</h1>
1.1. 在数据保护的基本方法中，加密可能是最重要的一种方法
<ul>
<li>
1.1.1. 加密的基本概念是指将信息进行编码，只有经过授权的人才可访问它
</li>
<li>
1.1.2. 在现代社会，这是保障个人数据安全储存和传输的重要工具
</li>
<li>
1.1.3. 信息编码被称为密码
</li>
<li>
1.1.4. 在加密中，密文仍能被还原成明文
</li>
</ul>
1.2. 恺撒移位密码(Caesar shift cipher)
<ul>
<li>1.2.1. 一种简单的加密技术，将一个字母按一定字数替换为字母表上的某个字母</li>
</ul>
1.3. 英格玛(Enigma)
<ul>
<li>
1.3.1. 第二次世界大战中使用的一种著名的加密装置
</li>
<li>
1.3.2. 同一字母被输入两次（大多数情况下）会导致两个不同的字母输出
</li>
<li>
1.3.3. 可能的配置大约有3×10114种，而宇宙中估计只有1080个原子
</li>
<li>
1.3.4. 人们运用了不起的密码学知识，包括加密和明文消息之间的已知关联、已发现的模式和通用图灵机，最终破解了英格玛机
</li>
</ul>
1.4. 对称加密
<ul>
<li>
1.4.1. 其加密和解密共用同一个密钥
</li>
<li>
1.4.2. 此密钥是秘密的，仅在发送者和接受者之间共享
</li>
<li>
1.4.3. 字母“e”是英语词汇中使用频率最高的字母，因此只要找到所有密文中频率最高的字母，就会发现这个加密字母其实就是字母“e”
</li>
<li>
1.4.4. 数据加密标准(DES)是现代对称密钥加密的第一个主要标准，由国际商业机器公司(IBM)开发
</li>
<li>
1.4.5. 比利时人文森特·瑞捷门(Vincent Rijmen)和琼·德门(Joan Daemen)于1998年开发了它的替代品AES（高级加密标准，它使用128、192或256位密钥，并在20世纪90年代末成为一项新的标准
<ul>
<li>1.4.5.1. 由于128位的密钥可生成3×10^38种密钥组合，因此被认为是相当安全的</li>
</ul>
</li>
<li>
1.4.6. 主要问题：如何共享密钥以及如何管理密钥
</li>
</ul>
1.5. 非对称加密
<ul>
<li>
1.5.1. 非对称加密是一种相对较新的方法，能避免传送同一密钥带来的麻烦
</li>
<li>
1.5.2. 非对称加密有公共密钥和私人密钥两个密钥可供使用，而不再是使用同一个密钥
</li>
<li>
1.5.3. 公共密钥对外公开，而私人密钥则对外保密
</li>
<li>
1.5.4. RSA算法以其发明者李维斯特(Rivest)、萨莫尔(Shamir)和阿德曼(Adleman)的名字命名，他们在1977年申请了这项专利
</li>
<li>
1.5.5. 优点
<ul>
<li>
1.5.5.1. 它消除了共享密钥带来的安全问题
<blockquote>
1.5.5.1.1. 现在只需要共享公共密钥，而且根据定义，不需要对这些公共密钥进行保密
</blockquote>
</li>
<li>
1.5.5.2. 还限制了所需密钥的数量
</li>
</ul>
</li>
<li>
1.5.6. 与对称加密相比较而言，非对称加密需要花费更长的时间
</li>
</ul>
1.6. 互联网经常同时使用对称加密和非对称加密这两种技术，以确保客户端和服务器之间通信过程的安全性
<ul>
<li>
1.6.1. 客户端使用服务器的公共密钥加密一个随机数，并将此加密信息发送给服务器
</li>
<li>
1.6.2. 通过使用其私钥，服务器可以解密此信息，并且也能知道客户端生成的随机数
</li>
<li>
1.6.3. 这个随机数就是对称加密的密钥，将在后续所有的通信中使用，直到会话结束
</li>
<li>
1.6.4. 这种方法是现在广泛应用于网络的安全套接字协议(SSL)及其继任者安全传输层协议(TLS)的基础
</li>
</ul>
1.7. 公共密钥基础设施的管理，包括验证某个公共密钥是否对应于给定实体，通常是通过Comodo和Let’s Encrypt等的第三方认证中心(CA)完成的
<ul>
<li>
1.7.1. 每当你访问以https开始的网页时，这种类型的加密会在后台一直工作
</li>
<li>
1.7.2. 如果你访问的是以http开始的网页，则该连接可能不是很安全
</li>
</ul>
1.8. 数据保护加密
<ul>
<li>
1.8.1. 加密对各种保护个人数据的工作都很有帮助
</li>
<li>
1.8.2. 个人数据不只会存储在笔记本电脑、个人电脑、智能手机和USB存储设备上
</li>
<li>
1.8.3. 获取的数据包括一段车祸发生前的视频、带有约会描述的日程表条目以及受邀者的电子邮件地址
<ul>
<li>
1.8.3.1. 将该等数据存储在汽车中，对汽车制造商及车主来说可能都是有道理且有价值的
</li>
<li>
1.8.3.2. 不过，为了保护数据，还是建议将此等数据进行加密储存，如此一来，就会像将个人数据储存在智能手机或个人电脑上一样安全
</li>
</ul>
</li>
</ul>
<h1 id="2哈希法">2. 哈希法</h1>
2.1. 散列法
2.2. 哈希是另一个很有用的加密函数，它将一些输入映射为哈希值或消息摘要
<ul>
<li>
2.2.1. 哈希值的长度总是固定的
</li>
<li>
2.2.2. 重要的是哈希函数是单向函数：给定输入值很容易就可以计算出哈希值，但给定哈希值（根据同样的算法）却很难找到相应的输入值
</li>
</ul>
2.3. 哈希值（或消息摘要）的空间通常小于输入的空间。这可能就会导致所谓的哈希碰撞，即两个不同的输入在同一哈希函数的作用下得到相同的输出
<ul>
<li>2.3.1. 输出空间越大，则碰撞就越少</li>
</ul>
2.4. 流行的哈希算法MD5（以Merkle和Damgård命名）可以把任何字符串作为输入，并输出128位的消息摘要
2.5. 美国国家标准与技术研究所(NIST)于2015年发布了最新的SHA-3哈希算法，其输出的哈希值可达512位
<ul>
<li>2.5.1. 研发者包括Bertonu、Daemen（他还是AES加密标准的创始人之一）、Pepeters以及Van Assche</li>
</ul>
2.6. 哈希法的第一个有趣的应用是信息指纹
2.7. 哈希函数不直接存储密码，而是对客户端的密码进行处理从而得到哈希值，然后将其发送并储存到服务器上
<ul>
<li>
2.7.1. 许多人经常重复使用相同的密码，所以出现频率很高的密码可能会被识别出来
</li>
<li>
2.7.2. 彩虹表
<ul>
<li>2.7.2.1. 列出了最流行的密码及其对应的哈希值</li>
</ul>
</li>
<li>
2.7.3. 为每个用户生成一个随机字符串，称为“盐值”，然后将其添加到密码中
</li>
</ul>
2.8. 哈希法还可用于确保在整个数据处理系统中不会有个人数据被复制
<ul>
<li>
2.8.1. 只保留个人信息，并将其哈希值保存在一个表中
</li>
<li>
2.8.2. 在不方便使用个人信息时，使用该哈希值
</li>
<li>
2.8.3. 大型银行可以通过对账户号码进行哈希法处理，以及删除姓名等方式，与可信赖的大学或研究人员[在签署保密协议(NDA)之后]共享其假名化的支付数据
<ul>
<li>2.8.3.1. 可能不会是匿名的，因为可能有人能够在数据中重新结交一些客户，但哈希法也相应地提供了额外的数据保护措施</li>
</ul>
</li>
</ul>
2.9. 加密和哈希法都是寻求数据保护的关键技术措施
<ul>
<li>
2.9.1. 黑客正在无休止的“军备竞赛”中不断地寻找措施及现行标准中的弱点
</li>
<li>
2.9.2. 只有在没有储存个人资料的情况下，才可保证对其100%的保护
</li>
</ul>
<h1 id="3量子计算">3. 量子计算</h1>
3.1. 量子计算是未来可能会超越加密技术的一种受人追捧的方式。由于量子计算势必会在未来对加密技术产生巨大的影响
3.2. 量子计算让我们可以利用量子力学的力量来进行所有传统计算机都做不到的计算
3.3. 量子水平上的非直观力学是近乎魔法的科学
3.4. 有一个现象至关重要，那就是“叠加”，即一个粒子，比如光子，同时处于两种状态
<ul>
<li>3.4.1. n个量子比特可以同时储存2^n种状态</li>
</ul>
3.5. 量子比特的第二个重要性质是纠缠
<ul>
<li>3.5.1. 对一个量子比特进行观测的同时也会揭示与其互相纠缠的量子比特的状态，但与两者间的距离无关</li>
</ul>
3.6. 量子计算的关键是利用叠加和纠缠的这些原理来展现问题并找到评估答案的方法
3.7. 量子比特的量子退相干就是在这样的情况下形成的，致使只有通过测试的答案才能避免退相干
3.8. 秀尔算法利用量子计算机的海量分布式计算对大数进行因子分解，这被认为是量子计算的重大突破之一
<ul>
<li>
3.8.1. 大数分解正是流行的RSA非对称计算算法的基础
</li>
<li>
3.8.2. 如果能应用秀尔算法，则可“破解”RSA加密
</li>
</ul>
<h1 id="4模糊处理">4. 模糊处理</h1>
4.1. 隐藏个人数据和秘密数据是保护隐私的关键机制
4.2. 加密可以用来实现这一目的，它明确地将秘密数据更改为只有授权人员才能读取的加密版本
4.3. 最终用户通常不会对是否使用加密以及如何使用加密有什么影响
4.4. 模糊处理是另一种隐藏个人数据的方法，即最终用户故意给系统添加噪声
4.5. 模糊处理不是显式地隐藏数据，而是隐式地生成许多其他数据（噪声），从而在创建的庞大数据中隐藏真正的数据（信号）
4.6. 模糊处理并不总是需要预定义的技术系统来添加噪声
4.7. 模糊处理可能被认为是“搭便车”（不付出成本而坐享他人利益）的行为
4.8. 当数据是在不相称和不恰当的情况下收集时，对抗信息不对称是很有必要的
4.9. TrackMeNot软件
<ul>
<li>
4.9.1. 软件策略是由同一批作者于2006年开发的，背景是当时美国司法部要求谷歌上交搜索日志以及与美国在线(AOL)再识别案相关的查询词条
</li>
<li>
4.9.2. 该软件的目标不是隐藏搜索查询，而是通过添加自动生成的搜索查询，来对它们进行模糊处理
</li>
<li>
4.9.3. 这类查询是以一种智能的方式生成的，如此一来，其他用户就可以根据不同的初始术语列表开发出搜索查询
</li>
<li>
4.9.4. 很难检测某个搜索查询是模糊处理（噪声）的行为还是真实进行的行为（信号）
</li>
</ul>
4.10. AdNauseam浏览器插件与uBlock Origin一起工作，它会悄悄地点击所有被屏蔽的广告
<ul>
<li>
4.10.1. 每点击成本(CPC)模式将极大地受到这种模糊处理的影响，一些广告商可能会在其广告未显示的情况下而看到许多点击（成本）
</li>
<li>
4.10.2. 点击量通常是用来评估广告活动和确定广告成本的指标
</li>
</ul>
<h1 id="5去中心化或本地化的差分隐私">5. 去中心化（或本地化）的差分隐私</h1>
5.1. 加入噪声是保护隐私的一项重要措施，经常用于差分隐私中
5.2. 目的是确保在加入噪声后，仍能进行数据分析，并可保护（更多的）隐私
5.3. 在去中心化（或本地化）方法中，人们不相信数据分析，而在中心化方法中，相比提供结果的外部观察者，人们更信任数据分析师
5.4. 差分隐私的名称源于其定义，即多一人数据或少一人数据的分析都不应该有太大的差别
5.5. 将专注于本地化、去中心化的差分隐私，即在记录数据时添加噪声
5.6. 使用随机响应机制，即在记录每个回答之前，抛一次硬币
<ul>
<li>
5.6.1. 在收集敏感数据而数据管理员又不受信任的任何情况下，这种机制都非常有用
</li>
<li>
5.6.2. 如果数据被黑客攻击、泄露或传唤，受访者可以直接否认记录的答案是其给出的答案
</li>
</ul>
5.7. 隐私保护的强弱程度取决于添加的噪声的数量，但也取决于进行分析的次数：一个人参与同一项调查的次数越多，数据分析师对此人的响应就越有把握
5.8. 一些大型科技公司已经开始使用这一程序，因为他们意识到收集用户数据的统计数据有助于提高安全性、发现漏洞以及改善用户体验 
来源：https://www.cnblogs.com/lying7/p/18861653

頁: [1]

圆梦公社's Archiver

读数据科学伦理：概念、技术和警世故事04隐私保护机制