阿里云的故障 | Nico Tech Here

周末同事和我说阿里云炸了，我随便打开官网一看，发现排版混乱，而我在阿里云上又没有什么资源了，所以没具体验证，而是简单看消息。

这次故障很诡异，因为是多region叠加大量产品故障，我和同事讨论不像是一年前HK region的故障，属于物理层面的机房故障，会造成单region的停服；也不太像前段时间的语雀故障，属于单产品的故障；所以问题很可能出现在一些基础服务上，怀疑是对象存储、网络、API接口等等。事后知乎上说是RAM系统故障导致的，我也将信将疑，因为对于阿里云的体量来说，这种单点BUG不通过灰度就all in所有region的管理运营错误过于离谱。不过早已不在阿里就职，里面的弯弯绕绕门门道道可能就每个人一个版本了。

在数据库的高可用中有一些有趣的指标，例如RPO和RTO，国内的大多数数据库产品都说自己的RTO在1min之内，但是推导到整个复杂的系统，就可以是1h、12h，这对于用户来说，特别是高可用敏感的用户来说，基本是不可接受的。这也是为什么支付宝停服8h和语雀停服8h的影响是不一样的。

「人也是云化的资源」，上云一方面是通过更廉价的硬件成本去实现更高的可用性，另一方面则是通过转嫁运维代价来减少成本。所以在阿里云频繁裁员的大场景下，是不是干掉了很多干实事的人，留下的都是嫡系在自己讲故事，也是一个问号。可以预见的是，在降本增效的大环境下，这种事故应该不会是最后一次。

国外市场是很信任公有云的，AWS、Azure上也承载了很多重要的业务；这和国内恰恰相反，尽管云化已经讲了很多年，但是仍然是以私有云为主体的，因为私有云可以「兜底」。可能相较于成本，能不能牢牢把握在自己手里，对于企业们绝对更加重要。

所以是拥抱公有云，还是自建私有云，成本、运维、资源利用率，是一个非常复杂的问题，零碎想了很多，不成体系，再思考再议吧