想飞的张飞 發表於 2025-5-20 21:09:00

读数据科学伦理:概念、技术和警世故事10道德评价

<p><img alt="" loading="lazy" src="https://img2024.cnblogs.com/blog/3076680/202505/3076680-20250509221358602-14492504.png" class="lazyload"></p>
<h1 id="1道德评价">1.&nbsp;道德评价</h1>
<p>1.1.&nbsp;需要衡量什么?</p>
<ul>
<li>
<p>1.1.1.&nbsp;是在什么背景下进行评估的?</p>
</li>
<li>
<p>1.1.2.&nbsp;使用了什么基准?</p>
</li>
<li>
<p>1.1.3.&nbsp;需要评估FAT标准中的每一项吗?</p>
</li>
</ul>
<p>1.2.&nbsp;如何解释这些结果?</p>
<ul>
<li>
<p>1.2.1.&nbsp;研究结果有意义吗?</p>
</li>
<li>
<p>1.2.2.&nbsp;是“p值篡改”的问题,还是做了多次对比,却没有得到妥善纠正的问题?</p>
</li>
</ul>
<p>1.3.&nbsp;需要汇报什么内容?</p>
<ul>
<li>
<p>1.3.1.&nbsp;过程是否完全透明</p>
</li>
<li>
<p>1.3.2.&nbsp;不管结果好坏都如实上报了?</p>
</li>
<li>
<p>1.3.3.&nbsp;数据科学可复制吗?</p>
</li>
<li>
<p>1.3.4.&nbsp;简易程度有多高?</p>
</li>
</ul>
<h1 id="2道德衡量">2.&nbsp;道德衡量</h1>
<p>2.1.&nbsp;做一个优秀的数据科学家</p>
<ul>
<li>
<p>2.1.1.&nbsp;侧重于数据科学</p>
<ul>
<li>2.1.1.1.&nbsp;要以正确的方式对待这门科学</li>
</ul>
</li>
<li>
<p>2.1.2.&nbsp;应该用不同的评估技术和指标来衡量数据科学模型的性能</p>
</li>
</ul>
<p>2.2.&nbsp;做一个优秀的人</p>
<ul>
<li>
<p>2.2.1.&nbsp;重在优秀</p>
</li>
<li>
<p>2.2.2.&nbsp;而不是“精挑细选”​,或者只是为了自己的利益而在数据科学评估指标上作弊</p>
</li>
</ul>
<h1 id="3正确评估">3.&nbsp;正确评估</h1>
<p>3.1.&nbsp;对数据科学进行评估的意义在于:不同的测量措施可能会带来截然不同的发现和结论</p>
<p>3.2.&nbsp;必须始终使用测试集,该测试集应尽可能地代表目标人群</p>
<ul>
<li>
<p>3.2.1.&nbsp;集合最好是基于时间的预测(相对于基于样本的预测)​,并且足够大</p>
</li>
<li>
<p>3.2.2.&nbsp;不使用测试集或者使用不具有代表性的测试集都是不恰当的,会导致对数据科学的影响估测过高</p>
</li>
<li>
<p>3.2.3.&nbsp;不恰当的做法不一定是人们有意识做出的决定,反而有可能是疏忽所致</p>
</li>
<li>
<p>3.2.4.&nbsp;不使用适当的测试集或度量标准可能导致误导性结果</p>
</li>
</ul>
<p>3.3.&nbsp;除了用于评估数据科学模型的测试集有问题,用于衡量测试集准确性的指标也可能存在问题</p>
<ul>
<li>
<p>3.3.1.&nbsp;混淆矩阵、受试者工作特征曲线(ROC曲线)​、升力曲线或利润曲线以及汇总指标</p>
</li>
<li>
<p>3.3.2.&nbsp;模型的性能还取决于所选择的阈值,从而可以做出正向的决定</p>
</li>
<li>
<p>3.3.3.&nbsp;即使在从预测数据到分类的阶段一直使用ROC曲线,人们仍然可以使用最终选定的阈值</p>
</li>
</ul>
<p>3.4.&nbsp;超越现有的模型和基线可能非常困难,所以有人铤而走险</p>
<ul>
<li>
<p>3.4.1.&nbsp;选择一个方便预测的测试集,上报一个符合自己目的的单一指标太容易了</p>
</li>
<li>
<p>3.4.2.&nbsp;对于非专家而言,这样的报告是肯定可以蒙混过关的</p>
</li>
</ul>
<p>3.5.&nbsp;评估FAT</p>
<ul>
<li>
<p>3.5.1.&nbsp;只要数据集中存在个人数据、敏感数据或敏感群体,就需要考虑公平性衡量、隐私评估和可理解性需求这些方面</p>
</li>
<li>
<p>3.5.2.&nbsp;FAT的道德要求,可以说它涵盖了当今时代数据科学存在的大部分道德问题</p>
</li>
</ul>
<p>3.6.&nbsp;评估其他道德要求</p>
<ul>
<li>
<p>3.6.1.&nbsp;鲁棒性</p>
<ul>
<li>
<p>3.6.1.1.&nbsp;在欧洲发布的《可信赖人工智能道德准则》(Ethics Guide-lines for Trustworthy AI)中,人工智能的鲁棒性(Robustness)居于人工智能道德性和人工智能合法性之后</p>
</li>
<li>
<p>3.6.1.2.&nbsp;人工智能的可靠性就是源于人工智能的道德性和合法性</p>
</li>
<li>
<p>3.6.1.3.&nbsp;技术鲁棒性要求人工智能系统的开发应采取预防性措施来防范风险,并使其以某种方式可靠地按预期运行,同时最大限度地减少无意和意外伤害,防止不可接受的伤害</p>
</li>
<li>
<p>3.6.1.4.&nbsp;鲁棒性包括抵御攻击、备援计划、准确性、可靠性和可重现性</p>
</li>
<li>
<p>3.6.1.5.&nbsp;对抗攻击以及如何让模型抵抗此类攻击,是一个与鲁棒性相关的研究课题</p>
<blockquote>
<p>3.6.1.5.1.&nbsp;对抗攻击会改变输入(例如图像)​,但这种改变与自然数据几乎无法区分,而预测的输出却变得出乎意料</p>
</blockquote>
<blockquote>
<p>3.6.1.5.2.&nbsp;模型的鲁棒性可用于评估对这种攻击的抵御能力</p>
</blockquote>
</li>
</ul>
</li>
<li>
<p>3.6.2.&nbsp;可持续性</p>
<ul>
<li>
<p>3.6.2.1.&nbsp;不仅会产生经济成本,用以在大型计算机上的训练模型,还会产生生态成本,因为模型的训练和部署都需要花相当多的能量</p>
</li>
<li>
<p>3.6.2.2.&nbsp;2019年的一项研究估计,训练一个深度学习模型产生的二氧化碳排放量,相当于5辆汽车的终生碳排放量</p>
<blockquote>
<p>3.6.2.2.1.&nbsp;当时,GPT-2是这项研究可用的最大模型,只有大约15亿个参数</p>
</blockquote>
</li>
<li>
<p>3.6.2.3.&nbsp;意味着你应该意识到这个问题,对能量使用结果保持透明[可使用机器学习排放计算器(Machine Learning Emission Calculator)或碳跟踪器等工具]​,考虑如何对其进行改进</p>
</li>
<li>
<p>3.6.2.4.&nbsp;限制浪费的实验数量,根据计算出的碳排放量选择数据中心和云提供商,使用节能硬件等</p>
</li>
</ul>
</li>
</ul>
<h1 id="4结果的伦理解释">4.&nbsp;结果的伦理解释</h1>
<p>4.1.&nbsp;为了评估结果的显著性,可以应用统计检验(statistical tests)来确定结果是否稳健</p>
<p>4.2.&nbsp;p值篡改</p>
<ul>
<li>
<p>4.2.1.&nbsp;p值定义为在假设原假设正确的情况下,获得至少与统计检验观察到的结果一样极端的概率</p>
</li>
<li>
<p>4.2.2.&nbsp;当“研究人员收集或选择数据或统计分析,直到非显著性结果变得显著”时,p值篡改就会发生</p>
</li>
<li>
<p>4.2.3.&nbsp;数据疏浚(data dredging)</p>
</li>
<li>
<p>4.2.4.&nbsp;显著性检验通常需要多次观察</p>
</li>
<li>
<p>4.2.5.&nbsp;篡改性能评估来获得显著提升</p>
</li>
<li>
<p>4.2.6.&nbsp;在数据科学中,调整数据或模型,从而在测试集上得到正确的评估和p值,是一大禁忌</p>
<ul>
<li>
<p>4.2.6.1.&nbsp;第一种方法是在数据收集和预处理阶段向数据集添加实例,直到获得正确的p值,并丢弃所有其他实例</p>
</li>
<li>
<p>4.2.6.2.&nbsp;第二种方法是输入变量级别:转换变量和/或进行输入选择,从而获得正确的p值</p>
</li>
<li>
<p>4.2.6.3.&nbsp;第三种方法是评估本身</p>
<blockquote>
<p>4.2.6.3.1.&nbsp;它尝试了许多评估指标,但只报告了一个显著指标,也不管这个指标是否适合你的应用</p>
</blockquote>
<blockquote>
<p>4.2.6.3.2.&nbsp;只报告最好的一个</p>
</blockquote>
</li>
</ul>
</li>
<li>
<p>4.2.7.&nbsp;在研究中,阴性结果或者没有突出表现的新方法是很难发表的</p>
<ul>
<li>
<p>4.2.7.1.&nbsp;在行业中,数据科学家当然更愿意报告对业务有重大影响的好结果,而不是报告他或她无法改进现有的系统</p>
</li>
<li>
<p>4.2.7.2.&nbsp;p值篡改是一种简单但不道德的做法</p>
</li>
<li>
<p>4.2.7.3.&nbsp;当你使用p值篡改的时候,名声不过是昙花一现,因为在部署时或实验被他人抄袭时,不好的结果必然会暴露出来</p>
</li>
</ul>
</li>
<li>
<p>4.2.8.&nbsp;需要积极打击p值篡改,它在科学和商业进步上都存在潜在的灾难,因为我们的决策不再以实际结果为指导</p>
</li>
</ul>
<p>4.3.&nbsp;多重比较</p>
<ul>
<li>
<p>4.3.1.&nbsp;因为一些模型的p值低于选定的α值5%,就进行多次比较,并将结果解释为显著,这也是一个问题</p>
</li>
<li>
<p>4.3.2.&nbsp;多重比较的问题在于,你进行的测试越多,一些罕见事件偶然发生的可能性就越大</p>
</li>
<li>
<p>4.3.3.&nbsp;邦弗朗尼修正法(Bonferroni correction)可用来纠正多重比较出现的问题</p>
<ul>
<li>
<p>4.3.3.1.&nbsp;当检验m个不同的假设时,不使用之前选择的α/5%,而是使用α/m作为临界值来判断显著性</p>
</li>
<li>
<p>4.3.3.2.&nbsp;邦弗朗尼修正法本身并不完美,因为它假设了个体测试的独立性</p>
</li>
<li>
<p>4.3.3.3.&nbsp;事实并非总是如此,因此这可能会导致更高概率的假阴性结果</p>
</li>
</ul>
</li>
</ul>
<p>4.4.&nbsp;简单透明地报告所有采取的步骤(建立了哪些模型、如何建立的、在什么数据集上等)​</p>
<h1 id="5道德报告">5.&nbsp;道德报告</h1>
<p>5.1.&nbsp;公开透明的报告</p>
<ul>
<li>
<p>5.1.1.&nbsp;道德报告必须公开透明,无论好坏</p>
<ul>
<li>5.1.1.1.&nbsp;其实与人分享一下你曾尝试过何种徒劳的方法,对他人来说也会受益匪浅,因为这会帮助他们避免日后重蹈覆辙,或者可以激励其他人改进结果</li>
</ul>
</li>
<li>
<p>5.1.2.&nbsp;不要只展示成功案例,要记录完整的数据科学过程,解释每一步的原因,包括失败案例</p>
</li>
<li>
<p>5.1.3.&nbsp;数据实例层面</p>
<ul>
<li>
<p>5.1.3.1.&nbsp;为什么选择一定的样本量?</p>
</li>
<li>
<p>5.1.3.2.&nbsp;这个样本具有代表性吗?</p>
</li>
<li>
<p>5.1.3.3.&nbsp;你为什么这么想?</p>
</li>
<li>
<p>5.1.3.4.&nbsp;你是否考虑过学习曲线(添加更多数据时对性能的影响)​?</p>
</li>
</ul>
</li>
<li>
<p>5.1.4.&nbsp;输入变量层面</p>
<ul>
<li>
<p>5.1.4.1.&nbsp;你考虑过哪些变量,为什么?</p>
</li>
<li>
<p>5.1.4.2.&nbsp;它们是如何获得的?</p>
</li>
<li>
<p>5.1.4.3.&nbsp;你删除变量了吗?</p>
</li>
<li>
<p>5.1.4.4.&nbsp;为什么删除?</p>
</li>
<li>
<p>5.1.4.5.&nbsp;怎么删除?</p>
</li>
</ul>
</li>
<li>
<p>5.1.5.&nbsp;建模层面</p>
<ul>
<li>
<p>5.1.5.1.&nbsp;你采用了什么技术?</p>
</li>
<li>
<p>5.1.5.2.&nbsp;你调整这些技术了吗?</p>
</li>
<li>
<p>5.1.5.3.&nbsp;你测试了哪些模型?</p>
</li>
</ul>
</li>
<li>
<p>5.1.6.&nbsp;评估层面</p>
<ul>
<li>5.1.6.1.&nbsp;用什么评估指标,为什么?</li>
</ul>
</li>
<li>
<p>5.1.7.&nbsp;透明的报告之所以如此重要,是因为它能确保对构建模型的数据科学的信任</p>
<ul>
<li>5.1.7.1.&nbsp;数据科学家并没有故意使用p值篡改或调整测试集等做法来玩弄系统</li>
</ul>
</li>
<li>
<p>5.1.8.&nbsp;以重现性为目标可能大有裨益</p>
<ul>
<li>
<p>5.1.8.1.&nbsp;如果报告能让我们轻松重现研究成果,信任自然会产生,从而确认数据科学真的是有效的、有意义的,并且是可以建立在其基础之上的</p>
</li>
<li>
<p>5.1.8.2.&nbsp;重现性表现为数据和代码可用且易于访问,其中主脚本自动执行所有数据科学步骤,并得到与报告相同的结果</p>
</li>
<li>
<p>5.1.8.3.&nbsp;在企业内部,重现性也保证了数据科学家在离开公司时工作不会丢失</p>
</li>
<li>
<p>5.1.8.4.&nbsp;未记录的代码或无法产出报告结果的代码至少会造成效率损失,甚至会否定先前的结果</p>
</li>
<li>
<p>5.1.8.5.&nbsp;确保重现性是一个关键要素,可以让所有进行的步骤都变得清晰起来,从导入选择到模型评估,概莫能外</p>
</li>
</ul>
</li>
<li>
<p>5.1.9.&nbsp;越来越多的人鼓励学者们在发表研究成果时共享数据和代码</p>
</li>
<li>
<p>5.1.10.&nbsp;所谓的“模型卡”是一种有趣的工具,是用于报告数据科学模型的关键组件</p>
<ul>
<li>5.1.10.1.&nbsp;模型卡通常只有一两页长,并且清楚地说明了模型的预期用途、使用的训练数据、模型类型、评估方法、局限性、可以联系谁以获取更多信息以及其他重要的模型信息</li>
</ul>
</li>
</ul>
<p>5.2.&nbsp;符合道德标准的学术报告</p>
<ul>
<li>
<p>5.2.1.&nbsp;学术报告是一个值得特别关注的特殊领域</p>
<ul>
<li>5.2.1.1.&nbsp;学术报告具有特殊性,因为它受到相当独特的竞争环境的影响,而且又可以对社会产生深刻的影响</li>
</ul>
</li>
<li>
<p>5.2.2.&nbsp;激励机制和学术报告过程很容易引起“小规模”的不道德行为,如精心选择数据集在学术出版物上发表报告,甚至完全捏造结果</p>
</li>
<li>
<p>5.2.3.&nbsp;以重现性为标杆</p>
<ul>
<li>5.2.3.1.&nbsp;在学术研究中,研究人员倾向于提出假设或研究问题,收集和分析数据,并展示结果</li>
</ul>
</li>
<li>
<p>5.2.4.&nbsp;在《自然》杂志的同一项调查中,实际造假只是导致研究不可重现问题的第9大报告因素</p>
<ul>
<li>5.2.4.1.&nbsp;造成这场危机的最大原因是选择性报道和论文发表的压力</li>
</ul>
</li>
<li>
<p>5.2.5.&nbsp;局外人很可能对学术环境的超竞争特质一无所知</p>
<ul>
<li>5.2.5.1.&nbsp;研究科学社会学的默顿(Merton)声称,科学奖励的基本货币是认可</li>
</ul>
</li>
<li>
<p>5.2.6.&nbsp;科研诚信行为准则</p>
<ul>
<li>
<p>5.2.6.1.&nbsp;可靠性:保证科研质量</p>
</li>
<li>
<p>5.2.6.2.&nbsp;诚信:在科研过程中,在审查、报告和交流科研过程中体现</p>
</li>
<li>
<p>5.2.6.3.&nbsp;尊重:尊重同事和社会</p>
</li>
<li>
<p>5.2.6.4.&nbsp;责任制:对研究的所有方面负责,直到发表为止。</p>
</li>
</ul>
</li>
<li>
<p>5.2.7.&nbsp;明确的不当行为</p>
<ul>
<li>
<p>5.2.7.1.&nbsp;捏造:捏造结果,并将其作为真实的结果发表</p>
</li>
<li>
<p>5.2.7.2.&nbsp;伪造:无正当理由篡改过程或数据</p>
</li>
<li>
<p>5.2.7.3.&nbsp;剽窃:未经适当授权使用他人的作品或创意</p>
</li>
</ul>
</li>
<li>
<p>5.2.8.&nbsp;不道德的学术行为还可能包括更微妙的行为,例如,作为匿名审稿人,要求作者引用他的作品,从而不公开你的作品的弱点或他对研究的怀疑,或者将你的手稿分成几份提交,只是为了发表更多的文章</p>
</li>
<li>
<p>5.2.9.&nbsp;所有与p值篡改相关的行为,比如删除与你的假设不匹配的数据点,或者只报告最适合的研究测量结果,也属于这种不道德的学术行为</p>
</li>
<li>
<p>5.2.10.&nbsp;不遵守这些求真原则会对科学乃至整个社会产生实际的负面影响</p>
</li>
<li>
<p>5.2.11.&nbsp;重现性应该变得更容易,这与需要访问数据(或解释为什么不能共享,例如出于保密的原因)​、代码,以及数据和代码的相应证明材料是携手并进的</p>
</li>
<li>
<p>5.2.12.&nbsp;德里克·斯塔佩尔(Derek Stapel)</p>
<ul>
<li>
<p>5.2.12.1.&nbsp;有做坏事的好人,也有做好事的坏人</p>
</li>
<li>
<p>5.2.12.2.&nbsp;许多实验数据被证明是捏造的</p>
</li>
<li>
<p>5.2.12.3.&nbsp;在自传中解释了是什么驱使他从知名教授沦落为数据操作和捏造的罪犯,他承认自己是罪犯</p>
</li>
<li>
<p>5.2.12.4.&nbsp;像这样完全捏造的实验当然是不可接受的</p>
</li>
<li>
<p>5.2.12.5.&nbsp;这种错误的实践始于“简单”的数据操作,我们可以将其称为通往不道德数据科学实践的大门</p>
</li>
</ul>
</li>
<li>
<p>5.2.13.&nbsp;强烈建议学术型数据科学家将其代码及数据公布出来(如果需要的话可以公布综合数据)​,这样其他人就可以重现相关实验,并能站在巨人的肩膀上,更上一层楼</p>
</li>
</ul><br><br>
来源:https://www.cnblogs.com/lying7/p/18868940
頁: [1]
查看完整版本: 读数据科学伦理:概念、技术和警世故事10道德评价