在AI芯片领域,英伟达凭借强大的训练芯片性能在市场中占据绝对主导,短期内几乎没有对手。不过,随着AI推理市场的快速扩张,这块利润丰厚的领域吸引了不少科技巨头和初创公司加入竞争。
美国加州的初创公司Rivos就是其中之一。8月13日,有消息称这家公司正在寻求4到5亿美元的融资。如果融资成功,自2021年成立以来,Rivos的总融资额将超过8.7亿美元,成为尚未大规模量产却获得最多融资的芯片初创企业之一。英特尔首席执行官陈立武是这家公司的投资者之一。
为什么这些初创公司和科技巨头选择从推理领域与英伟达竞争?他们又如何通过差异化技术和成本优势打破垄断呢?
在人工智能领域,训练和推理就像两个重要引擎,共同推动技术发展和市场竞争。训练是AI系统的“学习阶段”,就像教一个孩子,通过大量数据和算法训练,让AI模型从无知到能处理复杂任务。这个过程成本高、耗时长,需要强大算力和巨额资金,而且每次训练都是全新尝试,难以重复使用。
推理则是AI技术的“应用阶段”。当AI模型完成训练、掌握足够知识后,推理负责把这些知识转化为实际能力,解决现实中的各种问题。
生成式AI时代,技术架构有了大变化。以Transformer为代表的AI架构让基础模型训练更稳定,就像建好一座坚固的大厦,后续只需局部优化,不用频繁重建,大大降低了重复训练的成本。这时,推理成了持续创造价值的关键,像不停运转的生产线,不断调用模型能力满足不同场景需求。
从商业角度看,训练阶段像是高风险的“投资”,巨额投入和漫长回报周期让只有少数巨头能参与,收益也不确定。而推理阶段则成了AI产业的“盈利点”,很多知名AI应用都是通过收取推理服务费赚钱。
第三方机构Verified Market Research的数据显示,AI推理芯片市场在2023年规模达158亿美元,预计到2030年将增长到906亿美元。推理需求越旺盛,企业收入越高,就能吸引更多资源投入,推动技术升级。英伟达数据中心40%的收入就来自推理业务,这也说明了推理市场的重要性。
推理成本大幅下降是市场增长的重要原因。斯坦福大学2025年AI指数报告显示,18个月内AI推理成本从每百万token 20美元降到0.07美元,下降了280倍。硬件方面,企业AI硬件成本每年降30%,能源效率每年提高40%。算法优化技术如量化、稀疏化和蒸馏等也降低了模型的计算复杂度和内存需求。有投资人说,现在有效的互联网数据存量快用完了,更新有限,最终增长肯定在推理,因为推理是把训练好的模型用到不同场景;加上MOE架构出现,新信息只需局部训练,所以推理市场会爆发。
推理市场的高利润吸引了众多企业。摩根士丹利的报告显示,AI推理工厂的平均利润率普遍超过50%,其中英伟达GB200的利润率高达77.6%。尽管搭载72颗GB200芯片的NVL72系统售价达300万美元,但高利润还是让很多科技巨头羡慕。有算法人士表示,生成式AI时代,英伟达是少数赚到钱的公司。
训练市场被英伟达牢牢控制,推理市场却有突破的可能。推理对生态和性能的要求没训练那么高,更看重性价比,也就是低成本,而且推理利润很高。很多企业希望减少对单一供应商的依赖,尤其是对英伟达CUDA生态的依赖。推理对CUDA的依赖通常比训练小,因为推理部署更灵活,可以用CPU、边缘设备等多种平台,不一定需要CUDA环境;而且训练需要大量矩阵运算和反向传播,CUDA优化好,推理只需前向传播,计算量较小。所以,科技巨头开始在推理领域逐步竞争。
比如,AWS向客户推广使用自研推理芯片Trainium的服务器,提供25%的折扣,性能和英伟达H100芯片相当。不过目前这项服务主要针对Anthropic——2023年亚马逊投资40亿美元并获得部分股权的AI初创公司,Anthropic的Claude系列模型让它成为头部模型公司之一。OpenAI也开始租用谷歌TPU来降低推理成本,减少对英伟达的依赖。业内人士说,这不是短时间能完成的,现在影响有限,生态适配是最大问题,但对这些巨头来说,这是必须做的事,没人想让利润都被英伟达赚走。
除了科技巨头,很多初创公司也想在推理市场分一杯羹。随着AI推理进入高级阶段,算力需求更多元精细,通用GPU的灵活性不再是唯一选择,新兴芯片初创公司开始研发AI专用芯片(ASIC)。ASIC成本更低、运算效率更高,虽然应用场景单一,但在特定推理任务中性能突出,成了初创公司竞争的突破口。
Rivos就是备受关注的初创公司之一,戴尔、台积电、英特尔、联发科等巨头都投资了它。有消息说,Rivos在开发软件,能把英伟达CUDA代码翻译成自己的语言,让芯片高效运行,这样用户迁移成本会很低。
另一家挑战者Groq也在筹集资金。据公开信息,25家和英伟达竞争的AI芯片初创公司共融资超70亿美元,总估值达290亿美元。Groq由前谷歌TPU团队成员创立,开发了专门优化AI推理的语言处理单元架构,号称“世界最快推理”,token处理成本远低于传统GPU。它已从贝莱德、思科、三星等公司累计融资超10亿美元,并与沙特达成15亿美元的芯片合作协议,在英伟达渗透率较低的中东市场拓展业务。Groq的CEO说,英伟达可以专注高利润的训练业务,而他们则接手体量更大的推理业务。
还有一些英伟达没太关注的小领域,比如边缘侧,小型分散的推理需求正在爆发。智能家居、智能穿戴等AI硬件的普及,催生了大量边缘推理场景。
另外,新型算法架构和配套芯片也在出现。过去几年,英伟达是“算力越大越好”(Scaling Law)的最大受益者,靠这种思路卖GPU。但Scaling Law是不是通往通用人工智能的正确道路,还没有定论。Meta首席人工智能科学家杨立昆就不这么认为,他说:“我们不能用ChatGPT或GPT4这样的技术训练机器人清理桌子或洗碗,即使这对孩子来说很简单,我们现在还是做不到。”
在生成式AI时代处于绝对垄断的英伟达,GPU“算力越大越好”的故事还能讲多久,很难说。科技行业总是不断上演颠覆与被颠覆的戏码。