从成本到价值,韧性开启数据中心新篇章

图灵汇官网

过去几年,不少数据中心因突发问题而停止运作,这样的新闻并不少见。根据一项调查,超过一半的运营单位在过去三年中都经历过影响较大的中断事件,有些甚至导致数十万到数百万美元的损失。随着人工智能、大模型和云计算等新技术的发展,数据中心承担的任务变得越来越重要,行业对它的稳定性和持续运行的要求也不断提高。

企业逐渐认识到,只追求规模扩大已经无法满足当前复杂多变的需求。数据中心的角色正在发生变化,从原本的成本中心转变为支撑业务增长、应对不确定性、推动创新的价值中心。

如何在面对各种不确定因素时保证业务不中断,成为整个行业需要解决的问题。

在这个背景下,华为凭借多年在信息通信技术领域的积累,率先提出“韧性”将成为未来数据中心发展的关键方向。

在2025年华为全球连接大会上,华为发布了《韧性数据中心白皮书》,详细说明了建设韧性数据中心的理念、方法和路径,明确了四个重点方向:业务连续性、确定性安全、灵活适应能力以及基于AI的智能运维。同时,华为还推出了数据中心韧性成熟度模型(DRMM),为企业评估和改进提供了量化工具,帮助他们在可持续发展的道路上更进一步。

那么,在人工智能时代,为什么韧性变得更加重要?在不断变化的技术环境中,一个具备韧性的数据中心应该如何构建?

进入人工智能时代后,AI任务的特点使得高密度、高能耗的情况越来越多,这给数据中心的稳定性带来了更大的挑战,主要体现在三个方面:

首先,风险分布发生了变化,一次小故障可能带来更大的影响。比如光模块或网络出现故障,可能导致价值数千万的AI集群瘫痪。

其次,应用需求也在改变。尤其是大模型训练和在线推理这类任务具有波动性,对基础设施的稳定性提出了更高要求。一次停机就可能造成数百万美元的算力损失。

第三,技术架构也在转变。数据中心不再只是简单的计算、网络和存储设备的组合,而是三者深度结合的新体系。如果缺乏统一协调,数据中心建设容易出现碎片化、成本高、效果差的问题,一处出现问题可能牵动全局。

因此,“高可用”已经不能满足当前的需求,关于“韧性”的讨论开始成为行业的焦点。

一个具备强韧性的数据中心,可以通过多活容灾、自动调度和智能管理快速恢复。同时,它具备多层次的安全防护机制,确保数据在整个流程中的可信与合规,有效防范日益复杂的网络攻击。这种能力不仅保障核心业务不受影响,还能提升客户和合作伙伴的信任度,从而在竞争中占据优势。

《韧性DC白皮书》将“韧性”定义为“故障是常态,恢复是本能”。与以往强调“永不宕机”不同,这个定义承认在复杂的系统环境下,故障的发生是不可避免的。因此,韧性建设的目标不是追求硬件绝对不出问题,而是建立一种内在的能力:当问题发生时,系统能够像人的本能一样迅速、自动地恢复正常。

这本白皮书首次将“韧性”从模糊的概念转化为可规划、可设计、可衡量、可实施的能力体系,意义重大。那么,一个有韧性的数据中心应该从哪些方面入手建设呢?

全球数据中心产业正在经历由AI算力推动的快速增长。数据显示,大型数据中心(超过10MW)的数量迅速增加,大约每五年翻倍。预计到2032年,全球数据中心市场规模将达到5840亿美元以上。

然而,尽管数据中心建设如火如荼,行业对“可靠性”和“高可用性”的讨论仍停留在较浅层次,尚未形成一套涵盖全产业链、多维度、可量化的综合方案。

全球数据中心的发展呈现出区域化特征。欧美国家在严格监管下,更加关注绿色合规和可持续发展;亚洲的大型云服务商则在自动化调度和资源利用率上表现突出;行业组织也在探索韧性成熟度的量化模型,但尚未形成完整体系。

在AI时代,产业急需一份清晰的参考方案,指导数据中心如何建设。

9月18日,华为发布的《韧性DC白皮书》为行业提供了一个方向,将“韧性”从抽象概念落实到架构、运维、能效和协同等具体细节,让企业既能抵御风险,也能在压力中创造价值。

它不再局限于传统的“灾备”和“高可用”,而是将韧性分解为四个支柱:业务连续性、确定性安全、弹性自适应和基于AI的智能运维。

第一支柱是业务连续性,确保业务不会中断或崩溃。例如,某证券公司因光纤故障导致交易系统停机45分钟,直接损失864万元佣金收入。在数字社会,数据中心已经成为价值中心,其核心目标就是实现“数据零丢失”和“服务零中断”。

第二支柱是确定性安全,确保AI和数据在整个流程中可以信任。未来数据中心需要构建“内生可信+纵深防御+智能运营”的体系,覆盖应用、数据、主机、网络边界和物理环境等多个层面,确保系统“无法瘫痪、数据无法窃取、全程符合规范”。

第三支柱是弹性自适应,最大化资源利用。为应对AI任务的剧烈波动,数据中心应具备类似智能电网的柔性调度能力,避免传统方式下的资源浪费。

第四支柱是基于AI的智能运维,让“恢复即本能”成为现实。通过引入AI技术,数据中心可以实现“隐患自动优化、变更自动校验、故障自动闭环”。系统就像一个有自我意识的生命体,能够自主进行诊断、修复和优化,变得更加智能和富有生命力。

这四个支柱明确了韧性数据中心的建设标准,为数据中心的规划提供了一张可复制的蓝图。

在给出建设蓝图的同时,华为还提供了具体的实施方案。它们的核心思路是将复杂的技术问题转化为可复制、可部署的架构和工具,帮助客户真正实现业务不中断、数据不丢失、服务不降级。

在高可用方面,华为采用多层次的容灾解决方案。主备容灾实现基础保障;同城双活支持双中心同时运行,故障时无缝切换;多地多活可在多个地区同时运行,抵御城市级灾难,实现最高级别的业务连续性。

在确定性安全方面,华为构建了多层防护体系,覆盖网络边界、主机、应用、数据等多个关键层面,形成多重防线,即使某一层被突破,其他层级仍能继续拦截和响应。

在弹性自适应方面,华为强调以云为基础,结合云原生和Kubernetes容器技术,实现资源动态分配。在高峰时段自动扩容,在低谷时自动释放资源,节省能源和成本。

在智能运维方面,华为率先引入AI技术,构建面向全生命周期的智能化运维方案。通过多Agent协作,实现从告警分析到风险预测、资源优化的自动化闭环。具体来说,华为推出的AEI解决方案能够覆盖数据中心、园区等企业ICT基础设施,大幅提升运维效率和网络安全水平。

从多层次容灾机制到纵深防御体系,再到弹性自适应资源管理和智能运维,华为提供了全面且易于实施的数据中心韧性建设路径,回应了行业的核心需求。

但仅有方向还不够,还需要一个衡量建设成效的标准。

白皮书提出了数据中心韧性成熟度模型(DRMM),帮助企业判断自身处于哪个阶段,并明确下一步发展方向。

DRMM将数据中心韧性分为五个等级:L1是被动应对,主要依赖人工处理;L2是初步管控,开始建立基本的灾备和应急管理体系;L3是管理量化,引入自动化和监控系统,能够主动识别并解决问题;L4是数据驱动,通过数据分析优化管理,提高风险预测能力;L5是智能演进,借助AI等技术实现自我优化,灵活应对变化。

相比以往凭经验或跟随热点的做法,DRMM提供了一条循序渐进的升级路径。企业可以据此避免盲目投入,摆脱“全面铺开、效果有限”的困境,聚焦于阶段性突破,用有限资源获得最大收益。

可以看出,L1-L2级别主要关注“能不能用”,企业关心的是基础设施是否可靠、供电是否稳定、系统能否正常运行。这些目标主要是确保日常运营的稳定。

然而,进入AI驱动的新时代,数据中心的功能已超越传统的“能否正常运行”层面,进入L3及以上级别。现代数据中心不仅承载计算和存储,更是支撑经济运行和社会治理的关键基础设施。

《韧性DC白皮书》旨在引导行业从功能性考虑转向更深层次的韧性建设,不仅要支撑当前业务,还要在未来发展中持续、稳定、可进化地应对不断变化的需求和挑战。

换句话说,韧性不再是附加属性,而是AI时代数据中心的生命线。华为的方案正是为了让这条生命线更强、更稳,为数字经济提供更强大的支撑力量。

白皮书的发布为行业提供了方法论上的参考。但如何将这一理念转化为现实?

数据中心是一个开放的复杂系统,韧性不是单点冗余,而是全局平衡。芯片、硬件、软件、网络、安全、运维服务,每一个环节都可能成为薄弱点。只有全链条协同,才能让韧性成为系统的本能。

白皮书呼吁,供应商应在设计阶段就考虑互联互通与标准化,运维方要借助AI平台提升自动化与智能化水平,监管方要推动行业共识与标准落地。

这种协同不仅能提升数据中心的稳定性,也将推动整个ICT产业生态向更智能、自动、可持续的方向发展,为数字经济注入持久动力。

数据中心的韧性建设不再只是IT部门的任务,而是企业战略层面必须考虑的问题。从建设方式到运维模式,从风险意识到底层业务连续性,韧性正逐步融入数据中心的基因。

对于金融、能源、电信等行业,韧性意味着交易不中断、能源不断供、通信不掉线,从而保障国计民生;对于超大规模云厂商,韧性则是承载海量应用的基础保障,确保数字服务在任何情况下都能持续交付;而在更广泛的社会层面,韧性所带来的稳定性,将成为数字经济发展的底气,确保政府治理、公共服务以及各行各业的数字化转型在不确定中保持确定性。

AI时代,韧性正在成为新的护城河。未来的数据中心不再是冷冰冰的机房,而是一张与能源、网络、AI系统相互交织的生命网。在这张网中,谁能率先把韧性做到位,谁就能在风暴中掌握主动权。

本文来源: 互联网 文章作者: 段玮玲
    下一篇

导读:IT之家 9 月 26 日消息,微软今日发布了一篇博文,表示 OneDrive 不仅仅只是一个云存储工具,而是“强大的跨设备协作、备份和生产力平台”。该服务与 Windows 深度集成,既可作为