具身智能,是机器人的“冷饭热炒”吗?

图灵汇官网

大模型正成为热点,而下一个AI风口便是具身智能。如果你关注2023年世界人工智能大会等重要活动,以及英伟达、微软、谷歌、特斯拉等科技公司的最新发布会,除了大模型外,另一个高频词汇就是“具身智能”。

具身智能是指有身体并支持物理交互的智能体,使人工智能从数字世界扩展到物理世界,应用于机器人、机械臂、无人车、无人机等。简单来说,就是让机器人具备智能,能够像人一样与环境交互,执行各种任务。

尽管许多人已经见过或体验过具身智能产品,如索尼的机器狗AIBO、软银的服务机器人Pepper、波士顿动力的人形机器人等,但这些产品的市场表现并不理想。技术落地困难、产品停产、企业转卖等现象屡见不鲜。因此,有人认为具身智能只是一种营销概念。

接下来,我们将探讨具身智能是否真的成为了一个风口。

下一个AI风口

首先,我们需要确认具身智能是否真的火热。学术界和工业界确实已经将“具身智能”视为下一个重要趋势。在学术层面上,许多科学家认为大模型的技术路径打通后,下一个突破点是具身智能。例如,图灵奖得主姚期智认为,构建能够掌握各种技能并执行现实生活任务的高端机器人是人工智能领域的下一个挑战。清华大学计算机系教授张钹院士也在产业智能论坛上表示,随着基础模型的突破,通用智能机器人是未来的发展方向。

在产业层面上,谷歌、微软、特斯拉等科技公司近期纷纷推出自家的具身智能产品,国内的科技巨头如华为、京东等也开始积极推广相关产品。北京发布的《机器人产业创新发展行动方案(2023-2025年)》也强调了人形机器人的研发与应用。具身智能的产业化、市场化潜力正在加速积累。

尽管具身智能产品已广泛存在于生活中,但市场表现一直不尽如人意。那么,为什么一夜之间它成为了风口?

和大模型“两开花”

这一波具身智能的热潮让人想起了一张梗图:AGI起于大模型,终于具身智能。

具身智能的概念最早可追溯至1950年,图灵在其论文中提到,机器应像人一样能与环境交互感知、自主决策,并具备执行能力。历史上,两次人工智能浪潮并未达到大众预期,尽管有波士顿动力这样的成功案例,但产业化进展有限。当前第三次人工智能浪潮中,具身智能的希望重燃,关键在于与大模型“两开花”。

具体来说,大语言模型展示了AGI通用智能的潜力,为具身智能带来了几个方面的突破:

1. 大模型——更强大的“大脑”

大语言模型与传统机器学习的最大区别在于泛化能力强,能处理复杂任务理解、连续对话、零样本推理等。这使得机器人的理解力、决策力和人机交互能力得到了显著提升。

微软研究院发布的“ChatGPT for Robotics”文章指出,大型语言模型(LLM)可以将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等设备。

过去,由于传统AI缺乏先验知识和泛化能力,机器人无法像人一样拥有常识,必须将指令分解成一系列简短的程序。这使得高级别的具身智能(如L5自动驾驶、人形机器人等)难以满足实际需求,而简单的机械化具身智能(如机械臂、搬运机器人)较为常见。

有了大模型,机器人终于拥有了强大的“大脑”。LLM可以帮助机器人更好地理解高级语义知识,自动分析任务并分解成具体动作,使人机交互更加自然。

2. 多模态——更丰富的“小脑”

“具身”与“离身”的区别在于,具身智能依赖于身体的感知,不能脱离身体而单独存在。人类通过五官感知物理世界,而传统AI更多是被动观察,主要依赖计算机视觉和文本NLP。多模态大模型则可以积累和分析2D&3D视觉、LiDAR激光、声音等多维信息,基于真实交互,为具身大模型积累高质量数据,使其更好地理解和转化机器指令,从而控制机器人的行为。

有了感知能力更丰富的“小脑”,具身智能自然也能更好地理解物理世界。

3. 精准决策——更灵活的躯干

假设一辆无人车在路上突然遇到障碍物,若只能等待人类判断并下达指令,那可能会延误时机。传统的机器人训练通常采用离线模式,遇到新问题时需要重新收集数据并优化,效率较低,影响了具身智能的实际应用速度。

在大模型时代,具身智能模型的训练与测试与云服务结合,可以在虚拟仿真场景下进行实时训练与测试,快速完成端侧迭代与开发,大大加速了具身智能体的进化速度。

具身智能体在虚拟场景中反复尝试、学习、反馈、迭代,积累了对物理世界的深刻理解,通过与真实环境的不断交互积累了经验,提升了在复杂世界中的自动移动和泛化能力。这使得机器人能够更好地适应环境,更灵活地运用机械“躯干”进行人机交互。

一句话总结,大模型与具身智能“两开花”,为通用人工智能的落地打开了新的想象空间。

能抓老鼠才是好猫

理论归理论,实践归实践。我们常说能抓住老鼠的才是好猫,那么实现具身智能究竟有哪些“抓老鼠”的方式?

目前,主要分为两种路线:

一种是谷歌、伯克利等为代表的“未来派”,主打“一步到位”

这类研发机构从具身智能的终极目标出发,希望找到一个端到端的技术路径,采取“紧耦合”的方式,让一个大模型包办所有工作,实现识别环境、分解任务、执行操作等所有功能。这种路线难度大,但很有未来感。

例如,谷歌推出的PaLM-E是一个多模态具身视觉语言模型(VLM),可以让机器人基于大模型理解图像、语言等数据,执行复杂的指令,而无需重新训练。加州大学伯克利分校的LM Nav则通过视觉模型、语言模型、视觉语言模型CLIP等三个大模型,让机器人在不看地图的情况下,根据语言指令到达目的地。

另一种是英伟达及大量工业机器人厂商为代表的“务实派”,主打“马上见效”

“未来派”的路线虽然看起来很酷,但耗时较长,距离产业可用较远,成本昂贵,产业客户未必能接受。在商业应用上,满足工业界需求的“务实派”采用了松耦合的技术路线。

简单来说,就是不同任务通过不同模型来实现,分别让机器人学习概念并指挥行动,把所有指令分解执行,通过大模型完成自动化调度和协作。这种方式虽然底层逻辑较为机械,但成本和可行性上,让具身智能更快落地。

哪种路线更优?

坦率地说,这两种路线各有局限。“未来派”的紧耦合路线硬科技含量高,有可能给产业带来颠覆式变革,但商业化周期长,谷歌之前就出售了专注于人形机器人的波士顿动力。而“务实派”的松耦合路线可以较快落地产业应用,但技术壁垒不高,随着AI玩家增多,商业前景可能很快到达天花板。

星辰大海与商业赚钱之间的沟壑,是每个AI企业都要面对的挑战。

我们对机器人还有哪些期待?

尽管大模型方兴未艾,距离通用智能仍有很长的路要走。从这个角度看,被大模型带火的具身智能,目前也还停留在语言和视觉等经典AI任务领域,能否进一步突破尚不明朗。

既然如此,为什么学术界和产业界依然将其视为下一个AI风口呢?原因或许在于以下几点:

从学术上看,具身智能是行为主义的极致。人工智能的两大门派:符号主义和联接主义。联接主义也称行为主义,不追求意识的本质,希望用人工神经网络模拟人的行为,让机器“看起来像人”。具身智能是行为主义发展的极致表现之一。因此,从学术上倡导向具身智能发展,符合技术向前演进的路线。

从产业上看,产业智能化的浪潮让物理世界和数字世界的交互增多,只有AI软件是不够的,必须能驱动物理实体。例如,在工业场景中,机器人可以替代人工操作,完成抓拿放等任务,提高效率和安全性。同时,大模型、云计算、边缘计算等技术相结合,有望大大降低具身智能的研发和应用成本,这对于推动机器人产业发展具有重要意义。

当然,投入具身智能也存在风险。最极端的风险是,如果有一天,钟摆向另一方摆动,那么已经投入到行为主义这一技术路线的大量市场资源、基础设施投资、人才储备等,又该何去何从?

更具体的挑战包括数据的获取和处理,具身智能的数据只能从与物理世界的交互中获得,具有隐私性、高成本和敏感性,难以批量生产,这限制了能力的优化迭代。此外,用户对具身智能机器人的安全性要求很高,可靠性和可用性仍然是主要挑战。

无论如何,大模型的普及大大加快了具身智能的研发和落地速度。人工智能自诞生以来,人类就梦想创造出和自己类似的通用机器人。具身智能正是这一梦想的具体承载方式。今天,我们终于可以将“具身智能”作为一个产业风口来畅想和实现了,这是一件值得人类为之自豪的事情。

本文来源: 图灵汇 文章作者: 电脑爱好者