云计算 频道

阿里云宕完腾讯云宕,宕机是云之旅的“必修课”?

  正值周末,朋友圈被一则消息刷屏,腾讯云在上海的业务挂了!根据腾讯消息称,上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。而就在几天前阿里云刚刚发生过一次宕机事件。云服务商的各种宕机,让人想到萝卜蹲的游戏场景:红萝卜蹲,红萝卜蹲,红萝卜蹲完黄萝卜蹲……难道,宕机已成为云巨头服务商的“家常便饭”?如何看待各种云服务宕机现象?

  可恶的0.0001%,宕机不可避免!

  腾讯云宕机后,广泛引起业界争议。总体来看,大概分两派:一种评价说,这是云服务商技术不给力,云服务太脆弱;另一种评价,则认为这只是一场意外,和技术本身没啥关系。腾讯云到底为什么会宕机?99.999%的云可靠性,是否还可信?一系列的质疑牵动着无数人的神经。云宕机再次证明一个真理,那就是没有100%可靠的云,不管理是AWS、阿里还是腾讯云,几乎每一家云服务商都宕机过。

  宕机事件出现后,云服务商也很委屈,不管是人为的,还是技术上的原因,很多意外无法控制。对于最终用户来说,如果云宕机不可避免,就要确保云灾备的万无一失,数据存储和业务应用备份工作必须要做扎实。

  幸运的是,国内云服务商的整体运维水平在提高,这种能力甚至不输于国外巨头企业。据了解,腾讯云宕机后,仅用了2分钟就恢复了业务。几乎没给用户带来什么太大的损失,企业运维人员几乎无任何感知,这与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。

  快速恢复业务,把损失降到最小,云正在变得越来越靠谱!

  腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降后,随即启动了流量智能调度系统,将上海地区公网流量通过腾讯云内部T级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离,同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证用户的网络高可用性和稳定性。

  从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。简单理解,就是腾讯云每个可用区与可用区之间都采用3条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在50毫秒级自动切换

  能够在光纤中断这种极端事件中,仍然保证客户网络的平稳运行,得益于腾讯云多年来在骨干网、运营商领域深厚的技术和资源积累,同时,腾讯云自身众多海量业务的打磨,也助推腾讯云在智能化网络架构领域的探索更进一步。

  换句话说,如果没有腾讯云的高可用技术体系支撑,只能被动的等待运营商来完成修复,这样的结果是可能需要更长的时间。

  业务恢复后,有用户甚至要给腾讯云打广告,现有光纤监测技术无法实现毫秒级的监控需求,只能做到10分钟级。腾讯云现在已经可以把预警提升到秒级,相信很快可以再往前提升为毫秒级!

  云宕机事故,虽然直戳用户痛点,但是没有人会因此完全否定云。毕竟云架构的弹性化优势,仍对企业业务存在着极大的吸引力。企业上云就像开车,为了快速到达终点,明明知道有可能会发生交通事故,但是还是会去冒险。好在我们的保险体系已越来越完善,即使把车开在高速公路上,但很多安全保障措施极大地降低了意外发生的概率。

0
相关文章