EC2上的server终于可用了
严格来说,Amazon在弗吉尼亚北部数据中心仍然没有完全恢复正常,状态显示仍然是业务中断状态。
很幸运的是,我们的volume终于可以创建snapshot了。创建snapshot后,立刻在其他区创建一个新的volume,然后创建一个新的instance,将新的volume attach上去即可恢复运行。
从这可以看出:
(1)弗吉尼亚北部数据中心分成四个区A,B,C,D。其中,A,B区目前故障比较严重,而C、D两个区可能已经恢复正常。我们新创建的volume就设置在D区,目前工作很正常。
(2)传说中的多数据中心之间备份的功能没有实现。实际上,从目前的结果看,数据中心内部区间的备份甚至都没有实现或者出现了故障。
(3)云系统中的各个单独系统,采用snapshot方式调整部署恢复运行,功能确实也很强劲,恢复速度很快。
本次故障实在是大大出乎意料。“出故障”本身无可非议,任何设备都可能有故障,但是备份机制出现问题让人很困惑。理论上来说,既然作为云系统,A/B区出现问题,应当能立刻将数据转移到C/D区;如果弗吉尼亚数据中心出了问题,应该能立刻转移到其他数据中心,例如加利福尼亚/爱尔兰等。这次故障是否说明Amazon的云系统实际上根本无法做到数据平移?甚至无法做到同一数据中心内部平移?或者本次故障严重到备份系统(或者备份链路)都宕机了,以至于无法平移数据,造成问题越来越严重,故障部分承担的压力越来越大,最后导致雪崩?