11月5日,一场名为“新浪新闻·2025探索大会”的活动在北京落下帷幕,由微博和新浪新闻共同举办。在主题演讲环节,火山引擎的副总裁张鑫分享了题为《智能体“1+N+X”一站式工作站从生产工具到生产力上岗》的讲话。
火山引擎副总裁张鑫-主题演讲
以下为演讲内容,经过编辑略有删减:
每当有新的技术浪潮出现时,人们常常会用一些宏大的词汇来描述和赞扬。比如有人将大模型称为第四次工业革命,也有人称其为新时代的水电煤。但我觉得更合适的方式是用一个个关键节点来描绘技术的发展过程。
比如从ChatGPT发布以来,我们经历了几个重要的阶段。首先是苹果时刻,因为人机交互方式发生了根本变化,从图形界面转变为自然语言交互,甚至开发方式也发生了巨大改变,自然语言成为AI时代的全新代码。
随后,豆包迅速积累了大量用户,带来了AI普及的时刻。到了今年春节,DeepSeek开源后,又通过开放方式推动了行业进步。
创新的脚步没有停止,反而加快了。例如Deep Research的出现让很多人感到惊讶,认为AI时代真正的智能体时刻已经到来。但我更关注的是如何预测下一个关键点。有些人使用了非常宏大的词汇,比如AGI,即达到人类水平的AI,甚至是超越人类智力的超级AI。但从我的角度来看,这些目标还很遥远,但我已经看到一个现实:AI可以作为数字劳动力直接上岗。
因此,几位专家也提出了一个问题:AI会让哪些人先失业?我认为在以下三个领域,AI和智能体最有可能成为数字员工。第一是人力密集型领域,这类场景需要大量重复劳动,人员众多,培训成本高,如客服、审核、标注等。智能体能拓展人类体力和时间的边界。
第二是知识密集型场景,对专业知识要求高,但资深专家稀缺,如咨询、法务、医疗。智能体解决的是知识分发的问题。
第三是IT密集型场景,如AI编程、网络运维。这些领域本身是数字化原生的,AI和智能体可以进一步提升效率。虽然理论听起来美好,但听众可能也会产生一些担忧,不过现在还不必过于焦虑。
真正打造一个智能体数字员工,理论很美好,现场有很多技术专家,大家看过很多架构图。什么是Agent?它能够感知、规划、反思,并与环境互动。但实际落地情况如何?
时间有限,我只分享两个步骤。
第一步是从好的模型到好的应用。我们越来越意识到,模型能力的上限决定了应用效果的下限。模型能力提升会解锁更多上层应用。豆包大模型就是一个例子,从2024年5月发布到现在,短短一年多时间,Tokens调用量增长了253倍,这已经成为衡量AI科技密度和智商密度的一个标准。
模型能力提升为何能带来更好的应用?因为它能解锁更多场景。今天大会的主题是探索,我们也想看看未来一年内,模型能力能带来哪些新场景。
第一个场景是多模态深度思考能力。过去大模型常被理解为大语言模型,但实际上人类的信息获取方式不只是语言,还包括视觉和语音。甚至文本token可能是技术发展中的偶然。所以深度思考不仅基于文字,还能基于视觉和听觉。
举个例子,很多影视行业的专家都知道找穿帮镜头。过去需要花费大量时间,但现在结合大模型的视觉理解能力,可以快速发现不符合时代背景的物品。比如一张古代背景的图片中,右下角的矿泉水瓶明显不符合那个年代。
再来看一个复杂案例,给定一个80年代末北方贫穷家庭的背景,大模型能分析出布景中不符合设定的物品,比如缝纫机不应该出现在那样的家庭里,甚至暖水壶和脸盆太新也不符合背景。
除了找穿帮,还可以进行多模态搜索。比如一张米老鼠弹钢琴的截图,可以通过文字、视频、图像统一映射到向量空间,找到对应的影片。
第二个信息传播方向是将信息转化为多模态表达。图像生成已经很常见,以豆包为例,支持图片创作和编辑,非技术人员也能轻松实现专业级的图片制作。
视频相比图片能提供更高的信息密度和沉浸感,因此我们可以生成一部AI电影。画质高清,支持多种运镜,保证故事逻辑连贯,还能加入经典元素,让非专业人士也能实现导演梦。
基于这些技术能力,火山引擎在今年9月与上海电影和剪映合作,参加了釜山电影节,并举办了AI未来影像峰会,展示了五部AI短片,实现了人人成为创作者的梦想。
多模态领域不仅限于视觉,语音方面也有突破。AI合成声音已很常见,但过去的声音显得机械。现在的大模型可以用少量样本模拟人声,甚至用更自然的语调播报。测试显示,真人和AI的声音几乎无法区分,说明AI已经通过了图灵测试。
第三个趋势是大模型真正开始执行任务。过去演示多是聊天框,现在智能体可以完成复杂操作。比如给一张图片,让它用剪映转成3D,配上音乐并发布到抖音。所有操作都由大模型通过Computer Use技术完成。
手机端同样可行,比如订票。智能体能理解意图,打开12306软件,根据偏好选择航班,最终完成订票。今天的智能体不再是简单的聊天机器人,而是能完成复杂任务的助手。
第一步是选择更好的模型,解锁更多应用场景。第二步是如何将好的场景转化为真正的数字生产力。
看一张时间表,这与很多同事的日常类似。早上八点半起床,对着系统发呆,九点整理数据,录入多个表格,十点连续开三场会,下午专注做事又被流程问题打断。这种时间安排暴露了企业效率的三大问题:规则性任务消耗大量工时,频繁切换系统导致上下文中断,数据孤岛影响决策效率。
第二步是帮助企业构建数字生产力平台,派遣数字员工解决这些问题。这个平台不是简单堆砌工具,而是一个体系化的系统,叫做“1+N+X”。
“1”是统一的交互入口,解决找工具难的问题;“N”是通用智能体,如数据分析、营销专家;“X”是面向特定需求的定制工具链。通过一个入口,可以调度多个智能体,直接与业务系统对话,返回结果。
为什么需要统一入口?现在很多企业智能体数量过多,平均超过130个,最多超过600个。但这些智能体分散在不同系统中,如OA、CRM,甚至独立聊天框。虽然进入AI时代,但烟囱式IT孤岛反而增多,因为智能体开发门槛低。
我们的解决方案是通过统一操作空间,利用A2A和MCP协议,让不同智能体协同工作。
统一入口带来三方面好处:多智能体协作,比如会议助手和差旅助手一起工作;打通企业业务系统,提高效率;千人千面,每个人都能获得最适合自己的智能体服务。
除了入口,还需要通用智能体解决企业共性问题,如流程提效。例如,一家公司从客户下单到产品交付涉及多个系统,人工操作耗时费力。通过大模型,可以模仿人类操作,生成自动化流程,减少人工干预。
智能体不仅是通才,还需要专才。智能体的效果不是一次性的,而是需要持续训练和优化,就像人类员工一样。
整个过程包括策略规划、能力开发、效果评测、品质优化,形成一个循环,让智能体从实习生逐步成长为行业专家。
回到“1+N+X”体系,就能构建企业从招聘到培养,再到与真人共同工作的完整链条。
最后还有一个想法:随着社会进步,宠物也在进化,狗变得越来越聪明。在AI快速迭代的今天,人类也需要进化。AI可能会取代部分职业,但也创造新的岗位。
从我的角度看,AI的高价值落地不仅是技术问题,更是人才结构和密度建设的问题。希望与各位共勉。
