西湖大学打造了一个AI科学家,突破人类SOTA,还能自己发论文

图灵汇官网

专注AIGC领域的专业平台,关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型的进展与实际应用,聚焦相关市场动态和开发者生态,欢迎持续关注。西湖大学利用一个名为DeepScientist的AI系统,在短短两周内完成了人类科学家三年的研究工作量。这个系统生成了超过5000个研究思路,验证了其中1100个,最终在三个前沿人工智能任务中超越了人类专家的最高水平。

西湖大学文本智能实验室发布了一篇论文,介绍了这个具备自主探索能力的AI系统。

AI参与科研的想法由来已久,但发展过程中面临不少挑战。早期的系统多作为辅助工具,在固定框架内运作。例如,有些用于复现已有研究,有些解决工程问题,还有些通过大量试错优化算法。它们虽然功能强大,但始终在既定范式内运行,没有尝试质疑或改变这些范式。

后来,出现了许多专门用于科研的AI工具。比如帮助撰写论文、审稿或提出假设的系统。但这些工具仅能处理科研流程中的部分环节,无法从失败中学习并调整方向。

在此基础上,研究人员开始尝试构建一个能够全流程自动化的AI科研系统。虽然一些系统已经证明了可行性,但普遍存在探索目标不明确的问题,导致发现缺乏实际价值。

DeepScientist的出现改变了这一局面。它是首个能够通过闭环迭代流程,发现超越人类水平的自动化科研系统。它的探索基于明确的目标和深入的理解,先分析现有方法的不足,再通过归因分析确保新想法具有科学意义。

DeepScientist将科研过程建模为一个优化问题。它在一个庞大的可能空间中寻找最优解,而这个解的价值由一个黑盒函数决定。然而,前沿科研的验证成本极高,每次测试都需要大量计算资源。因此,必须采用高效策略避免盲目尝试。

为此,DeepScientist设计了一个分层的三阶段探索循环。整个过程依赖于一个多代理系统,结合开放的知识库和不断积累的“发现记忆”。这些信息用于指导后续探索,确保资源被合理使用。

第一阶段是生成想法。系统会分析已有知识的局限性,提出多个假设,并由一个类似审稿人的代理进行评估,给出综合评分。这些想法和评分会被记录到知识库中。

第二阶段是验证想法。系统使用一种经典算法选择最有潜力的方案进行实施。编码代理负责编写代码并执行实验,结果更新到知识库,形成反馈循环。

第三阶段是分析和撰写报告。只有成功验证并超越基准的方法才会进入此阶段。一系列分析代理会对结果进行深入研究,最后由合成代理整理成一篇完整的论文,成为新的知识记录。

研究团队选择了三个前沿任务进行测试:代理失败归因、LLM推理加速和AI文本检测。每个任务都采用了最新的SOTA方法,系统在两周时间内取得了显著成果。

在代理失败归因任务中,DeepScientist提出了A2P方法,通过因果推理提升分析能力。在LLM推理加速任务中,ACRA方法提高了吞吐量。在文本检测任务中,PA-Detect方法在关键指标上实现了突破。

DeepScientist还撰写了五篇论文,经过双重评审,其论文质量得到了认可。人类专家认为这些论文在创新性和科学贡献方面表现突出。

整个探索过程经历了大量试验,成功率仅为1.9%。这说明科学突破本就困难,智能化筛选机制至关重要。失败的原因主要包括代码错误和想法本身不可行。

DeepScientist的成功也引发了一些伦理思考。团队进行了安全测试,确认基础模型具备一定的安全防护能力。为了防止滥用,研究团队决定开源核心组件,但不公开最终的分析与报告模块。

未来,科研人员的角色可能会发生变化,更多地专注于高层次的思考而非重复性操作。

本文来源: 互联网 文章作者: 白银珠
    下一篇

导读:每经记者:叶晓丹每经编辑:魏文艺“我们将直接在芯片、软件、系统乃至AI(人工智能)工厂层面与OpenAI合作,帮助他们成为一个完全自运营的超大规模公司。”近日,英伟达(Nasdaq:NVDA)C