张家赫 發表於 2023-6-30 00:00:00

阿里云事故真相

<p class="p1">在<span class="s1">9</span>月<span class="s1">1</span>日,我经历了非常难忘的一天。阿里云云盾的安骑士产品升级触发<span class="s1">bug</span>导致了用户<span class="s1">ECS</span>里的部分正常文件被误隔离。故障恢复期间,不断有朋友问我,阿里云所有客服也都忙于处理这个问题。而我,是云盾的负责人。</p>
<p class="p1">这次的故障是由于工程师粗心大意写错了一行代码,从而将所有新启动的可执行文件都当成了恶意文件进行隔离。由于我们之前在设计上的缺失,对这一特殊的异常情况缺乏快速恢复的机制,只能临时写程序进行紧急恢复,因此整个故障持续了较长的时间。在此首先向所有遭遇这次故障的客户表示深深的歉意。但请不用担心的是,这次故障不会造成任何数据丢失,更不会如某些谣言所说会造成数据泄露。</p>
<p class="p1">这次故障也暴露出了我们在研发流程上的一些问题,我们会深刻反思和改进,在此不再赘述。对于写出这行代码的工程师,我相信他已经得到了深刻的教训。而我也将为整个事件承担该有的管理责任。</p>
<p class="p1">但这些都无法挽回我们客户的损失。在微博上看到客户的吐槽,充满了愤怒和无奈,作为当事人的我,心情是极其复杂的。随后的谣言四起,加上有心人推波助澜,让我无法再保持沉默,我来直面这些疑问。</p>
<p class="p1">很多人的疑问在于阿里云身为云计算服务商,为什么可以删除客户服务器里的文件?这让很多客户产生了一种对云计算的不信任感。</p>
<p class="p1">要回答这个问题,就必须先从<span class="s1">AWS</span>的安全共担模式,和阿里云的保姆模式说起。</p>
<p class="p1">实际上,<span class="s1">AWS</span>作为业界云计算的标杆,在客户安全的态度上采取的是一种共担模式,即<span class="s1">AWS</span>只对它作为云计算平台本身的安全负责,而选择把客户的安全交给第三方安全厂商,所以在<span class="s1">AWS</span>的<span class="s1">MarketPlace</span>里,卖的最好的也是安全产品。</p>
<p class="p1">而阿里云在成立的第一天起,就认为安全是云计算最重要的事情。同时,我们也看到中国的<span class="s1">IT</span>行业,和美国的<span class="s1">IT</span>行业有着非常大的区别。在美国,<span class="s1">IDC</span>里有着各种成熟的<span class="s1">IT</span>解决方案以及商业化产品,美国的企业安全市场付费能力也非常的强,因此美国的安全市场已经相对比较成熟了。</p>
<p class="p1">而在中国,大量的中小企业客户实际上处于一个裸奔状态,他们的安全需求往往得不到满足。在这样的市场环境下,为了更好的培育云计算市场,让客户能够把更多的精力聚焦在自己的业务上,我们在云计算解决方案里集成了自主研发的安全产品,希望能够将阿里多年在安全技术上积累的经验,分享给所有阿里云的客户,这就是云盾的一系列产品。</p>
<p class="p1">因此安全对于阿里云来说很重要,我们希望客户在使用阿里云时,能够尽可能少的担忧安全问题。基础攻防类的安全需求,都可以通过云盾解决掉。这就是阿里云安全的保姆模式,我们帮客户做了更多的事情。</p>
<p class="p1">在云盾之外,我们也借鉴了<span class="s1">AWS</span>的思路,会广泛邀请安全厂商和开发者为云上的客户提供服务。比如在<span class="s1">VPC</span>网关后通过<span class="s1">SDN</span>技术串接虚拟网络设备的位置,我们就是开放给安全厂商的。</p>
<p class="p1">云盾是阿里云的一个安全品牌,是一系列安全产品的组合。比如防御了<span class="s1">453.8Gbps</span>的<span class="s1">DDoS</span>攻击的<span class="s1">DDoS</span>高防<span class="s1">IP</span>产品是其中之一,即将推出的弹性安全网络产品是一个新的基础网络安全产品,还有已经在公测的「态势感知」产品,可以帮助客户做安全数据分析,让安全决策变得简单;这次造成故障的安骑士产品是希望解决所有服务器的安全问题。</p>
<p class="p1">安骑士产品的主要功能,是提供高危漏洞修复、防服务器密码破解和木马文件查杀。预装在阿里云的每一个<span class="s1">ECS</span>里,因为我们希望售卖的每一台<span class="s1">ECS</span>都是安全的。如果客户不想使用云盾安骑士服务,可以按照官方的指导说明来进行卸载。</p>
<p class="p1">安骑士是免费服务,这些年发挥了很好的作用。比如在<span class="s1">2014</span>年<span class="s1">10</span>月,<span class="s1">WDCP</span>出现了严重的安全漏洞,黑客可通过此漏洞添加管理帐号,并登录<span class="s1">WDCP</span>管理后台。当时阿里云上有上千台安装<span class="s1">WDCP</span>的<span class="s1">ECS</span>受此漏洞影响,并有部分机器已经被黑客植入了名为<span class="s1">Gates</span>的<span class="s1">DDoS</span>木马。当时安骑士在第一时间添加了漏洞修复规则和<span class="s1">Gates</span>木马查杀特征,在<span class="s1">1</span>天内完成了所有受影响<span class="s1">ECS</span>的漏洞修复和木马清理。</p>
<p class="p1">现在,通过安骑士防暴力破解功能的协同防御机制,每一天都会拦截超过<span class="s1">5</span>亿次的暴力破解攻击。我们在今年上半年做过一次测试,在某云平台购买的一台机器开放<span class="s1">SSH</span>到公网后,统计了一周有<span class="s1">82703</span>次<span class="s1">SSH</span>登录失败的记录(暴力破解攻击),而在云盾安骑士的保护下,阿里云的一台测试机器只有<span class="s1">72</span>次<span class="s1">SSH</span>登录失败记录。</p>
<p class="p1">互联网的不安全,超出你的想象。</p>
<p class="p1">但我对目前的产品现状仍然有很多不满意的地方。我一直在团队内部倡导和强调的文化是「透明」。我希望每个人的工作都能透明出来,所以我们会在墙上贴出云盾看板,透明出每个团队做的工作和进度,让所有路过的人能够看到;我希望我们的产品能够变得更加的透明一些,把产品做的所有事情透明给用户,特别是一些需要用户授权和允许的操作。</p>
<p class="p1">在这一点上,过去做的不够好,我们正在努力改变。这次安骑士误隔离用户的正常文件所涉及的功能,在设计上是一个用户可选的功能,但却因为<span class="s1">bug</span>配置上了其他用户,这也是一个非常严重的失误。</p>
<p class="p1">在这次故障恢复后,阿里云已经立即启动了百倍时间赔偿的计划。但是我认为这也是远远不够的,云盾应该再多做一些事情。</p>
<p class="p1">所以我今天做出了以下决策:</p>
<p class="p1"><span class="s1">1.</span>对于本次故障受到影响的客户,我们会赠予一批云盾付费产品,包括:弹性安全网络、态势感知、安骑士云托管。我们会在近期拟定方案并开通服务,客户也可以选择不使用。</p>
<p class="p1"><span class="s1">2.</span>安骑士将尽快提供方便快捷的一键关闭功能。</p>
<p class="p1"><span class="s1">3.</span>我们会给受影响的客户写一封手写的道歉信。</p>
<p class="p1"><span class="s1">4.</span>对于影响较大的客户,我们会即刻出发登门拜访负荆请罪,直面你的怒火和建议。</p>
<p class="p1">以上这些,希望能够帮助我们的客户带来更好的安全感受。对于选择离去的客户,我们会全力配合做好迁移工作,并诚挚的希望有一天你们会再回来。对于愿意选择继续相信我们的客户,我们会怀抱着最大的感恩之心,与你们共同成长。</p>
<p class="p1">做云计算难免故障,在危机时刻,我只心疼我们的客户。</p>
<p class="p1">吴翰清(道哥、刺)</p>
<p class="p3">2015<span class="s2">年</span>9<span class="s2">月</span>3<span class="s2">日凌晨。</span></p>
<p> </p>
頁: [1]
查看完整版本: 阿里云事故真相