在五月击败柯洁后,AlphaGo并未止步,而是继续前行。DeepMind在《自然》杂志上发布论文,宣布了AlphaGo Zero的问世,这是人工智能围棋程序的新篇章。这款版本的AlphaGo无需人类知识指导,仅在三天的数百万局自我对弈后,就以100比0的成绩轻松击败了李世乭版本的AlphaGo。DeepMind创始人哈萨比斯表示:“AlphaGo Zero是迄今为止最强大、最具效率、最具通用性的AlphaGo版本,我们即将看到这项技术在其他领域大放异彩。”
人工智能研究在多个领域取得了迅速进步,包括语音识别、图像分类、基因组学和药物研发等。然而,依赖大量人类专业知识和数据的专家系统往往受限于高昂的成本、不可靠性和获取难度。因此,创造能在高度复杂领域无需人类输入即可实现超人类性能的算法,一直是AI研究的长期目标。
AlphaGo Zero,作为AlphaGo的最新版本,首次实现了这一目标。它从完全随机的围棋下法开始学习,无需参考人类围棋比赛。通过自我对抗,AlphaGo Zero迅速超越人类棋手水平,并以压倒性的100:0比分击败了之前的AlphaGo版本。
AlphaGo Zero采用了一种全新的强化学习方法,作为自己的“老师”。它的神经网络最初对围棋一无所知,通过将神经网络与强大的搜索算法相结合进行自我对弈,神经网络在实践中得到优化和更新,预测棋局走向和胜负。每次迭代中,神经网络和搜索算法的结合使AlphaGo Zero的性能不断提升,自我对弈的质量也相应提高。
相比之前的版本,AlphaGo Zero在设计上有三大关键改进: - 简化输入:仅使用棋盘上的黑白棋子作为输入,无需额外的手工设计特征。 - 单个神经网络:整合了决策和价值判断功能,使训练和评估更为高效。 - 去除“rollouts”:不再依赖快速随机下棋预测胜者,转而依靠神经网络的精确评估。
这些改进不仅提升了AlphaGo Zero的性能,还使其更通用,能够应用于更多领域,如蛋白质折叠等复杂问题的解决。
AlphaGo Zero的实现得益于硬件和算法的双重进步。它仅需4块TPU(Tensor Processing Unit)就能运行,展现出惊人的效率。
在短短三天的自我对抗训练后,AlphaGo Zero以100:0的成绩横扫了之前版本的AlphaGo。经过40天的训练,它进一步强化,甚至超过了击败世界冠军柯洁的“Master”版本。等级分排名显示了AlphaGo Zero在发展中逐渐逼近人类智慧的巅峰。
AlphaGo Zero展现了前所未有的创造力,超越了以往与李世石和柯洁对弈时的水平。这不仅预示着人工智能将成为人类智慧的放大器,还暗示着它有能力解决那些对人类构成巨大挑战的问题。
AlphaGo Zero代表着通向无需人类知识即可实现超人类性能的算法的关键一步。如果类似技术应用于蛋白质折叠等其他领域,其潜在的社会影响可能是深远的。这篇论文的发布不仅标志着人工智能领域的重大突破,也为未来的研究提供了宝贵的启示。