1. 概述
1.1. 任何一种框架或核查表都会很快过时(因此需要定期更新):数据源、技术、应用程序和伦理考量都在不断地变化
1.2. 将FAT流程框架作为通用的指导准则
2. 三个属性
2.1. 公平、责任和透明(FAT)
-
2.1.1. 前两个准则用于评定伦理概念,比如隐私、歧视和可解释性
-
2.1.2. 责任准则与这些概念的有效性和核查性有关
-
2.1.3. “FTA”读起来不那么顺口,因此稍作调整以“FAT”来表示
2.2. 公平准则包含两个重要概念:歧视和隐私
-
2.2.1. 公平(1):平等待人,不偏袒、不歧视
-
2.2.2. 公平(2):在某一特定情况下具备合理性,被普遍接受
-
2.2.3. 数据科学定义
-
2.2.4. 合理使用个人数据需要尊重资料当事人的隐私
-
2.2.4.1. 隐私是公认的人权
-
2.2.4.2. 联合国的《世界人权宣言》(1984)(Universal Declaration of Human Rights)规定:“任何人的私生活、家庭、住宅和通信不得任意被干涉,他的荣誉和名誉不得被攻击。”
-
2.2.4.3. 《欧洲人权公约》(1953)(European Convention on Human Rights)关于隐私权的规定:“每个人的私生活和家庭生活、住宅和通信都有受尊重的权利。”
-
2.2.4.4. 隐私:不受他人观察或干扰的状态
-
2.2.5. 公平也涉及用可接受的处理方式尊重他人隐私(不想受他人观察或干扰)。
-
2.2.6. 检测欺诈、破案或医疗诊断,与定向广告或音乐推荐相比,前三者通常要求更多的个人数据
2.3. 透明准则可能是最重要的一个准则,因为它影响着责任准则和公平准则
-
2.3.1. 将透明准则应用于解释数据科学模型所做的决定,但实际上透明准则的使用范围不限于此,它适用于数据科学项目研究的所有阶段
-
2.3.2. 透明:很容易理解或检测
-
2.3.3. 主体不同,所要求的透明度也不尽相同:组织的管理人员会要求完全透明,而资料当事人不会获得此权利(以免泄露公司机密)
- 2.3.3.1. 数据科学家希望以前的模型工作中,所有的算法步骤完全透明;而管理人员则对正则化逻辑模型的正则化超参数进行交叉验证时所使用的超参数网格不太感兴趣
-
2.3.4. 透明度对公平和责任而言也至关重要
-
2.3.5. 透明准则的重要之处在于它可以解释数据科学模型对模型主体所做的决定
-
2.3.6. 透明度(1):数据科学进程的明确性
-
2.3.7. 透明度(2):数据科学模型可以解释所做决定的能力
2.4. 责任,这可能是FAT评定准则中最难定义的一个准则,因为其概念宽泛,可用于不同的情境之中
2.5. 责任:有义务①实施恰当有效的措施以确保遵守原则;②要求这些措施确实符合现有的政策和条例;③认识到不履行责任的潜在消极影响
3. 人类的四种角色
3.1. 资料当事人:其(个人)数据正在被使用的人
3.2. 管理人员:管理或签署数据科学项目的人
3.3. 数据科学家:从事数据科学研究的人
3.4. 模型主体:模型预测的对象
4. 五个常见且相关的阶段
4.1. 伦理数据收集
4.2. 伦理数据预处理
-
4.2.1. 公平准则
-
4.2.1.1. 不包括种族等敏感变量,并不一定意味着你不歧视种族敏感群体
-
4.2.1.2. 任何与种族密切相关的变量都会引发歧视
4.2.1.2.1. 问你的家庭地址,地址可能代表种族
-
4.2.1.3. 问你的家庭地址,地址可能代表种族
-
4.2.2. 透明准则
- 4.2.2.1. 数据预处理阶段的透明度涉及关于实例、输入变量和目标变量的公开交流
4.3. 建立伦理模型
-
4.3.1. 公平准则
-
4.3.1.1. 数据科学建模可以纳入隐私方面
-
4.3.1.2. 个人身份信息应该受到保护并隐藏起来
-
4.3.1.3. 不应使用数据集对敏感变量进行预测
4.3.1.3.1. 即使数据集并未直接包含有关政治倾向的信息,这些信息也可以很容易被数据集预测出来
-
4.3.1.4. 应防范不当的建模模式
-
4.3.1.5. 你不应该在建模的过程中抛弃或降级使用与你的业务实例相关的重要模式
-
4.3.1.6. 当来自多渠道的数据库信息被共享,或者当数据被公布给广大公众时,这就成为一个更严重的实际问题
-
4.3.1.7. 伦理讨论中应明确其偏好
-
4.3.1.8. 数据不会反映或者很少会反映低频率事件
-
4.3.2. 透明准则
-
4.3.2.1. 数据科学家可以使用的建模技术数不胜数,从经典耐用的逻辑到先进的深度学习算法技术,应有尽有
-
4.3.2.2. 算法的一个不同之处在于它们生成的模型有不同的可理解性
-
4.3.2.3. 可理解性是一种连续测量标准,其中,规则模型或树型模型是非常容易理解的,而非线性技术则颇有难度,不易理解
-
4.3.2.4. 输入数量(或正则化)和算法类型的选择均对模型的透明度有着重要影响
4.3.2.4.1. 这与决策实际生成的解释密切相关,通常被称为可解释的人工智能的一部分
4.4. 评估伦理模型
4.5. 伦理模型调度
-
4.5.1. 公平准则
-
4.5.2. 透明准则
-
4.5.2.1. 系统在当初设计时和后期运行时的表现可能差距很大
-
4.5.2.2. 非预期后果具有非预期性,尽管在设计的过程中已经设想过了
-
4.5.2.3. 通过数据科学模型误导人类是一种违背伦理的行为
4.5.2.3.1. 深度伪造技术(DeepFake)就是一种基于深度学习的含误导性的技术,拍摄看似真实但是却虚假的视频
4.5.2.3.2. 在传播虚假视频时也必须遵循透明准则
来源:https://www.cnblogs.com/lying7/p/18855445 |