周末同事和我说阿里云炸了,我随便打开官网一看,发现排版混乱,而我在阿里云上又没有什么资源了,所以没具体验证,而是简单看消息。

这次故障很诡异,因为是多region叠加大量产品故障,我和同事讨论不像是一年前HK region的故障,属于物理层面的机房故障,会造成单region的停服;也不太像前段时间的语雀故障,属于单产品的故障;所以问题很可能出现在一些基础服务上,怀疑是对象存储、网络、API接口等等。事后知乎上说是RAM系统故障导致的,我也将信将疑,因为对于阿里云的体量来说,这种单点BUG不通过灰度就all in所有region的管理运营错误过于离谱。不过早已不在阿里就职,里面的弯弯绕绕门门道道可能就每个人一个版本了。

在数据库的高可用中有一些有趣的指标,例如RPO和RTO,国内的大多数数据库产品都说自己的RTO在1min之内,但是推导到整个复杂的系统,就可以是1h、12h,这对于用户来说,特别是高可用敏感的用户来说,基本是不可接受的。这也是为什么支付宝停服8h和语雀停服8h的影响是不一样的。

「人也是云化的资源」,上云一方面是通过更廉价的硬件成本去实现更高的可用性,另一方面则是通过转嫁运维代价来减少成本。所以在阿里云频繁裁员的大场景下,是不是干掉了很多干实事的人,留下的都是嫡系在自己讲故事,也是一个问号。可以预见的是,在降本增效的大环境下,这种事故应该不会是最后一次。

国外市场是很信任公有云的,AWS、Azure上也承载了很多重要的业务;这和国内恰恰相反,尽管云化已经讲了很多年,但是仍然是以私有云为主体的,因为私有云可以「兜底」。可能相较于成本,能不能牢牢把握在自己手里,对于企业们绝对更加重要。

所以是拥抱公有云,还是自建私有云,成本、运维、资源利用率,是一个非常复杂的问题,零碎想了很多,不成体系,再思考再议吧