随着越来越多的用户希望企业能够实现全年无休的业务运转,企业在业务中断方面的潜在风险也随之增加。比如,系统复杂度的上升以及功能更新的频繁执行,促使企业必须找到有效手段来保障业务的连续性并增强其抗风险能力。
亚马逊云科技大中华区的一位负责人提到,韧性已经成为现代云计算服务中必不可少的要素。所谓韧性,是指应用能够抵御中断或者迅速恢复正常运行的能力,涵盖因基础设施、外部依赖、配置错误、网络问题或流量骤增所导致的中断情况。
亚马逊云科技在设计和实施其云服务时,始终把韧性当作关键考虑因素之一。例如,通过分离服务的管理部分和数据处理部分,即便管理部分出现故障,数据处理依然可以正常工作。这种分离机制有点像交通系统里的调度中心与车辆行驶相互独立的关系。负责人解释道:“管理层面和数据层面的隔离,就好比叫车软件和实际驾驶是分开的。即便叫车软件出了问题,也不妨碍司机把乘客送到目的地。”
另外,亚马逊云科技采用了一种叫做‘单元架构’的设计模式,将服务拆分成若干个独立的小单元,每个单元都不共享资源,从而进一步缩小故障发生时可能产生的影响范围。
韧性并非一次性完成的任务,而是一个持续的过程。它要求在业务需求、可靠性、成本以及系统复杂度之间寻求平衡。为此,亚马逊云科技创建了一个韧性体系建设的生命周期框架,该框架包含五个重要环节,并且明确指出韧性是一个循环往复的流程,需要不断重复这些环节来适应环境和需求的变化。
举例来说,2022年,奇瑞捷豹路虎将重要的SAP系统迁移至亚马逊云科技平台,这是其数字化转型的关键步骤。借助云端部署所有的SAP模块,这家企业不仅提高了业务的灵活性,还提升了员工的工作效率。同时,利用亚马逊云科技特有的多区域可用区功能,以及自适应的跨可用区高可用集群,他们设计出一套高可用性和同城灾难恢复相结合的解决方案。这套方案显著提高了系统的稳定性和可靠性,极大降低了停机时间,保证了数据的安全完整。而且,故障切换的时间从过去的半小时大幅缩短至3分钟。
此外,代闻还特别提到,在软件开发早期就引入韧性思维的重要性,以确保系统从一开始就具备足够的韧性特征。为了协助客户建立全面的韧性体系,亚马逊云科技提供了多种服务和工具,例如Amazon Resilience Analysis Framework、Amazon Aurora、Amazon DynamoDB和Amazon Fault Injection Simulator,并通过五个阶段的方法论引导客户开展韧性建设工作。