读数据科学伦理：概念、技术和警世故事02FAT流程框架

庭竹俏妃寒湿护理 · 發表於 2025-5-12 06:36:00

1. 概述

1.1. 任何一种框架或核查表都会很快过时（因此需要定期更新）：数据源、技术、应用程序和伦理考量都在不断地变化

1.2. 将FAT流程框架作为通用的指导准则

2. 三个属性

2.1. 公平、责任和透明(FAT)

2.1.1. 前两个准则用于评定伦理概念，比如隐私、歧视和可解释性
2.1.2. 责任准则与这些概念的有效性和核查性有关
2.1.3. “FTA”读起来不那么顺口，因此稍作调整以“FAT”来表示

2.2. 公平准则包含两个重要概念：歧视和隐私

2.2.1. 公平(1)：平等待人，不偏袒、不歧视
2.2.2. 公平(2)：在某一特定情况下具备合理性，被普遍接受
2.2.3. 数据科学定义
- 2.2.3.1. 公平(1)：不歧视敏感群体
- 2.2.3.2. 公平(2)：对隐私进行可接受的处理
2.2.4. 合理使用个人数据需要尊重资料当事人的隐私
- 2.2.4.1. 隐私是公认的人权
- 2.2.4.2. 联合国的《世界人权宣言》(1984)(Universal Declaration of Human Rights)规定：“任何人的私生活、家庭、住宅和通信不得任意被干涉，他的荣誉和名誉不得被攻击。”
- 2.2.4.3. 《欧洲人权公约》(1953)(European Convention on Human Rights)关于隐私权的规定：“每个人的私生活和家庭生活、住宅和通信都有受尊重的权利。”
- 2.2.4.4. 隐私：不受他人观察或干扰的状态
2.2.5. 公平也涉及用可接受的处理方式尊重他人隐私（不想受他人观察或干扰）。
2.2.6. 检测欺诈、破案或医疗诊断，与定向广告或音乐推荐相比，前三者通常要求更多的个人数据

2.3. 透明准则可能是最重要的一个准则，因为它影响着责任准则和公平准则

2.3.1. 将透明准则应用于解释数据科学模型所做的决定，但实际上透明准则的使用范围不限于此，它适用于数据科学项目研究的所有阶段
2.3.2. 透明：很容易理解或检测
2.3.3. 主体不同，所要求的透明度也不尽相同：组织的管理人员会要求完全透明，而资料当事人不会获得此权利（以免泄露公司机密）
- 2.3.3.1. 数据科学家希望以前的模型工作中，所有的算法步骤完全透明；而管理人员则对正则化逻辑模型的正则化超参数进行交叉验证时所使用的超参数网格不太感兴趣
2.3.4. 透明度对公平和责任而言也至关重要
2.3.5. 透明准则的重要之处在于它可以解释数据科学模型对模型主体所做的决定
2.3.6. 透明度(1)：数据科学进程的明确性
2.3.7. 透明度(2)：数据科学模型可以解释所做决定的能力

2.4. 责任，这可能是FAT评定准则中最难定义的一个准则，因为其概念宽泛，可用于不同的情境之中

2.4.1. 责任：被要求证明行为或决策的合理性、负责任
2.4.2. 负责的：即作为一个工作或者角色的一部分，有义务做某事，或者管理、照顾他人

2.5. 责任：有义务①实施恰当有效的措施以确保遵守原则；②要求这些措施确实符合现有的政策和条例；③认识到不履行责任的潜在消极影响

2.5.1. 关于采取恰当的措施，确保以既定的政策和相关规定进行数据科学项目
- 2.5.1.1. 包括正确运用加密手段确保隐私安全，或者通常在实施过程中考虑所讨论的数据科学伦理技术
2.5.2. 关于要求这些措施得到有效落实，并且这些措施确实符合现有的政策和条例
- 2.5.2.1. 责任不是等待系统出现故障，而是要求公司根据相关要求证明其遵守了数据科学伦理
2.5.3. 必须面对不履行责任带来的后果
- 2.5.3.1. 出现问题时有人需要对此负责，这意味着要承担责任

3. 人类的四种角色

3.1. 资料当事人：其（个人）数据正在被使用的人

3.1.1. 监管机构可以充当代理人的角色

3.2. 管理人员：管理或签署数据科学项目的人

3.2.1. 就算某个不可理解的黑箱模型在超时测试集(out-of-time test set)中是准确的，管理人员也不能只部署这个模型
3.2.2. 对于管理人员而言，一个客户的贷款申请是否得到许可并不重要，重要的是模型的运作方式

3.3. 数据科学家：从事数据科学研究的人

3.4. 模型主体：模型预测的对象

4. 五个常见且相关的阶段

4.1. 伦理数据收集

4.1.1. 公平准则
- 4.1.1.1. 需要公平对待资料当事人和模型主体
- 4.1.1.2. 数据收集过程是建立数据科学伦理的FAT流程框架的第一个重要阶段
- 4.1.1.3. 资料当事人和模型主体的角色可以不一样，因为在数据收集过程中，可以对每个人使用不同的数据
4.1.2. 责任准则要求采取恰当有效的措施，从而与上一段问题的答案保持一致，如数据最小化、投诉和整改处理程序以及知情同意等问题
4.1.3. 透明准则
- 4.1.3.1. 保持数据收集过程的透明度时也需考虑资料当事人和模型主体的隐私
- 4.1.3.2. 作为实验当中的一部分，模型主体具有敏感性，他们会要求数据透明
- 4.1.3.3. A/B测试具有普遍性，需要让模型主体意识到他们是测试的一部分，尤其是这一实验会对测试对象产生重要影响的情况下
- 4.1.3.4. 数据科学家和管理人员也会要求数据透明，他们需要知道数据的收集方法

4.2. 伦理数据预处理

4.2.1. 公平准则
- 4.2.1.1. 不包括种族等敏感变量，并不一定意味着你不歧视种族敏感群体
- 4.2.1.2. 任何与种族密切相关的变量都会引发歧视
  
  4.2.1.2.1. 问你的家庭地址，地址可能代表种族
- 4.2.1.3. 问你的家庭地址，地址可能代表种族
4.2.2. 透明准则
- 4.2.2.1. 数据预处理阶段的透明度涉及关于实例、输入变量和目标变量的公开交流

4.3. 建立伦理模型

4.3.1. 公平准则
- 4.3.1.1. 数据科学建模可以纳入隐私方面
- 4.3.1.2. 个人身份信息应该受到保护并隐藏起来
- 4.3.1.3. 不应使用数据集对敏感变量进行预测
  
  4.3.1.3.1. 即使数据集并未直接包含有关政治倾向的信息，这些信息也可以很容易被数据集预测出来
- 4.3.1.4. 应防范不当的建模模式
- 4.3.1.5. 你不应该在建模的过程中抛弃或降级使用与你的业务实例相关的重要模式
- 4.3.1.6. 当来自多渠道的数据库信息被共享，或者当数据被公布给广大公众时，这就成为一个更严重的实际问题
- 4.3.1.7. 伦理讨论中应明确其偏好
- 4.3.1.8. 数据不会反映或者很少会反映低频率事件
4.3.2. 透明准则
- 4.3.2.1. 数据科学家可以使用的建模技术数不胜数，从经典耐用的逻辑到先进的深度学习算法技术，应有尽有
- 4.3.2.2. 算法的一个不同之处在于它们生成的模型有不同的可理解性
- 4.3.2.3. 可理解性是一种连续测量标准，其中，规则模型或树型模型是非常容易理解的，而非线性技术则颇有难度，不易理解
- 4.3.2.4. 输入数量（或正则化）和算法类型的选择均对模型的透明度有着重要影响
  
  4.3.2.4.1. 这与决策实际生成的解释密切相关，通常被称为可解释的人工智能的一部分

4.4. 评估伦理模型

4.4.1. 公平准则
- 4.4.1.1. 在评估阶段，数据科学模型根据上述与隐私和歧视敏感群体有关的公平准则进行评估
- 4.4.1.2. 模型需要敏感属性
4.4.2. 透明准则
- 4.4.2.1. 在评估模型时，透明准则的作用非常重要
- 4.4.2.2. 它的第一个作用可以正确评估模型
- 4.4.2.3. 准确度的直观性有时会使我们得到这种“简单”的准确率指标，即使这一指标并不合适

4.5. 伦理模型调度

4.5.1. 公平准则
- 4.5.1.1. 在部署数据科学系统时，有时需要决定谁有权访问数据科学模型
- 4.5.1.2. 审查便是一个对你的数据科学系统进行访问限制的具体案例
4.5.2. 透明准则
- 4.5.2.1. 系统在当初设计时和后期运行时的表现可能差距很大
- 4.5.2.2. 非预期后果具有非预期性，尽管在设计的过程中已经设想过了
- 4.5.2.3. 通过数据科学模型误导人类是一种违背伦理的行为
  
  4.5.2.3.1. 深度伪造技术(DeepFake)就是一种基于深度学习的含误导性的技术，拍摄看似真实但是却虚假的视频
  
  4.5.2.3.2. 在传播虚假视频时也必须遵循透明准则

来源：https://www.cnblogs.com/lying7/p/18855445

读数据科学伦理：概念、技术和警世故事02FAT流程框架

1. 概述

2. 三个属性

3. 人类的四种角色

4. 五个常见且相关的阶段

瀏覽過的版塊