EC2上的server终于可用了

2011/04/23 YI

严格来说，Amazon在弗吉尼亚北部数据中心仍然没有完全恢复正常，状态显示仍然是业务中断状态。

很幸运的是，我们的volume终于可以创建snapshot了。创建snapshot后，立刻在其他区创建一个新的volume，然后创建一个新的instance，将新的volume attach上去即可恢复运行。

从这可以看出：

（1）弗吉尼亚北部数据中心分成四个区A，B，C，D。其中，A,B区目前故障比较严重，而C、D两个区可能已经恢复正常。我们新创建的volume就设置在D区，目前工作很正常。

（2）传说中的多数据中心之间备份的功能没有实现。实际上，从目前的结果看，数据中心内部区间的备份甚至都没有实现或者出现了故障。

（3）云系统中的各个单独系统，采用snapshot方式调整部署恢复运行，功能确实也很强劲，恢复速度很快。

本次故障实在是大大出乎意料。“出故障”本身无可非议，任何设备都可能有故障，但是备份机制出现问题让人很困惑。理论上来说，既然作为云系统，A/B区出现问题，应当能立刻将数据转移到C/D区；如果弗吉尼亚数据中心出了问题，应该能立刻转移到其他数据中心，例如加利福尼亚/爱尔兰等。这次故障是否说明Amazon的云系统实际上根本无法做到数据平移？甚至无法做到同一数据中心内部平移？或者本次故障严重到备份系统（或者备份链路）都宕机了，以至于无法平移数据，造成问题越来越严重，故障部分承担的压力越来越大，最后导致雪崩？

静水潜流

记录一点生活

EC2上的server终于可用了

2011/04/23 YI