当前全球算力需求正在经历结构性变革,智能计算正成为推动计算技术创新的核心动力。人工智能的崛起对算力产生了巨大需求,其消耗量惊人。以ChatGPT为例,仅在其发布后的两个月内,便迅速吸引了一亿活跃用户,成为史上速度最快的亿级用户应用,而这一成就在TikTok、Instagram、Facebook、Twitter等应用上分别需要9个月、2.5年、4年半和5年的时间来达成。然而,支撑这一速度的背后是海量算力的支撑。据统计,单个大型语言模型的训练成本可能高达2亿美元。
与此同时,人工智能技术正在加速渗透至各个行业,展现出了对智能算力的迫切需求。在前沿领域如大数据分析、遥感探测、生命科学和自动驾驶等方面,对智能算力的需求呈现出快速增长的趋势。从更宏观的角度来看,数据要素的高效利用离不开智能算力的支持。目前,实际被有效利用的数据仅占总量的1%,因此,如何精准地获取高质量数据并利用这些数据构建有效的模型,关键在于采用先进的AI算法,这都需要强大的智能算力作为支撑。预计未来五年内,中国智能算力规模的年复合增长率将达到52.3%。
随着人工智能技术的广泛应用,智能算力将深度融入各行各业,为各种应用提供稳固的算力保障,预示着巨大的发展前景。智算中心作为智能算力的重要载体,正逐步成为支撑和引领数字经济、智能产业、智慧城市、智慧社会发展的新型关键基础设施,标志着智能时代的到来。
青云科技的AI智算平台旨在构建一种创新的算力中心建设和运营模式,帮助智算中心实现如同管理本地资源一样的AI基础设施管理,以满足多样化的业务需求,提高AI算力的整体使用效率和管理效率。新版本全面拥抱云原生,实现了从AI基础设施到AI开发、训练、推理的全流程高效管理。
该平台通过统一的集群管理,高效调度包括NVIDIA、国产GPU在内的多种异构算力资源,覆盖从物理机到容器的全方位管理。新版本支持共享GPU、单卡、多卡、多节点的算力调度,用户可以根据实际业务需求灵活申请资源,大幅提升了算力资源的使用效率。
平台提供了全面的监控功能,包括节点监控、任务监控、容器组监控、高速网络监控和GPU监控,实现从硬件故障处理到资源使用情况的全方位监控,确保及时发现并解决潜在问题。同时,平台支持自定义告警配置,通过邮件、企微、webhook等多种通知渠道,确保用户实时掌握AI基础设施的运行状态。
AI智算平台还丰富了对AI业务的支持,简化了从算力调度到AI开发训练推理的流程。平台支持自定义镜像仓库,内置了TensorFlow、PyTorch、MPI、DeepSpeed等常用计算框架,以及一键创建开发机、分布式任务、自动挂载并行文件存储等常用AI业务流程。用户只需上传代码,即可快速启动多机多节点的分布式训练,系统自动调度GPU资源进行计算,任务完成后自动释放资源,大大加速了科研成果的创新过程。
优化的模型服务功能使用户可以一键部署在线推理服务,显著提高了模型开发和部署的效率,无论公开模型还是自有模型,都能在线推理,满足各种业务需求。平台还提供了自动化运营和计量计费服务,通过青云公有云智算专区的运营经验,实现了规格定价、在线充值、购买产品的全流程自服务管理,减少了运营人员和技术人员的投入,加快了算力中心资源的售卖速度,提升了资源运营效率。