阿里巴巴开源自主搜索AI智能体 WebAgent

图灵汇官网

阿里巴巴日前在开源平台 GitHub 上发布了其自主研发的 AI 产品 WebAgent。这款工具具备完整的自主信息检索与多步推理功能,能够模仿人类的行为,在网络环境中主动感知、判断并执行任务。

举例来说,当用户希望获取某一领域内的最新研究进展时,WebAgent 可以自动搜索多个学术资源库,挑选出最具相关性的文献资料,并依据用户需求对其深度剖析和归纳整理。据透露,WebAgent 不仅可以提取文献中的重要信息,还可以结合多步逻辑推导,把不同文献的观点整合起来,为用户提供一份详尽而精确的研究报告。

阿里巴巴的 WebAgent 包括两个主要部分:WebDancer 和 WebWalker。其中,WebDancer 是一个用于提升网络环境下 AI 工具多步信息搜寻能力的全链路训练框架;而 WebWalker 则是针对“Web 遍历中大型语言模型”的基准测试。

WebDancer 的整体架构分为四大模块,从数据构建到训练优化,逐步培养出能独立完成复杂信息检索任务的智能系统。数据构建是整个流程的基础。在实际应用中,优质的训练数据是智能系统成功学习和扩展的关键所在。WebDancer 采用两种创新的数据生成技术,弥补传统数据集的不足之处。

为了保证生成路径的有效性和连续性,WebDancer 使用了短推理和长推理两种模式。短推理借助大模型快速生成简明的推理路径,而长推理则是通过逐步构建复杂推理过程来实现。

数据准备完毕后,WebDancer 进入监督微调(SFT)环节。此阶段的核心目标是利用高质量的轨迹数据对智能体进行初步训练,使其符合信息检索任务的要求。在此过程中,WebDancer 对轨迹中的思维活动、行为表现以及观察结果逐一标注,并计算损失值以优化模型参数。为了增强模型的稳定性,WebDancer 在计算损失时排除了外界反馈的影响,确保模型集中于自主决策流程。这个阶段的训练赋予了智能体强大的初始技能,有助于其在后续强化学习阶段更好地应对复杂任务。

强化学习(RL)是 WebDancer 框架的重要组成部分。在这个阶段,智能体通过与环境互动,学会如何在各种情况下作出最佳选择。WebDancer 使用了一种名为 DAPO 的强化学习算法,这种算法专为智能体训练量身打造。

DAPO 算法通过动态采样机制,高效利用未被充分利用的问答对,从而提升数据使用效率和策略的可靠性。在强化学习的过程中,智能体经过反复试验和反馈,不断改进自己的决策方案,最终实现高效的多步推理和信息检索能力。

相关链接: GitHub 地址:https://github.com/Alibaba-NLP/WebAgent
WebDancer 论文:https://arxiv.org/pdf/2505.22648
WebWalker 论文:https://arxiv.org/pdf/2501.07572

本文来源: 互联网 文章作者: 郑爽
    下一篇