清华大学教授孙富春:具身智能是AI进入物理世界进行交互的载体

图灵汇官网

2024年12月6日,“奔向数智新时代”大会在成都召开。这场活动由成都传媒集团指导,每日经济新闻主办,中央财经大学数字经济融合创新发展中心提供学术支持,数智未来场景实验室协助策划。

会上,清华大学计算机科学与技术系教授、中国人工智能学会副理事长孙富春以“具身智能赋能产业发展”为主题发表演讲。他先回顾了具身智能的发展历程,提及沃伦·麦卡洛克关于认知与身体关联的研究、艾伦·图灵通过具身发展智能的设想,以及赫尔德和海因证明行动与感官反馈对认知成长影响的重要成果。

孙富春指出,具身智能与离身智能存在显著差异。离身智能无法拥有实体形态,仅能被动接收预设数据,而具身智能通过赋予机器实体形式,让其与现实环境交互,例如家庭服务机器人和自动驾驶车辆。1963年,麻省理工学院的理查德·黑尔德通过实验进一步验证了这一点,他将两只猫分别置于不同条件下,结果表明能与外界互动的那只猫学会了走路。

要实现真正的“智能”,具身智能系统必须具备感知场景、认知推理、多模式持续学习的能力,以便更全面地适应复杂环境。孙富春举例说,人们完成任务时往往需要把抽象感知转化为具体认知,这个过程离不开知识指引。比如摆放苹果到桌上分为三步:先识别苹果位置,这需要感知与认知相结合;接着抓取苹果;最后放好苹果。借助知识引导,机器同样可以高效完成各类任务,并根据不同物体特性采取相应措施。此外,具身智能还体现在智能体处理多项任务的能力上。

如今,具身智能正推动多个行业发生深刻变化。在制造业,智能机器人可精确完成复杂生产任务,提升效率与质量;在医疗行业,具身智能展现巨大潜力,外科手术中的机器人能协助医生实施高精度操作,降低风险,提高成功率。另外,它也在智能家居、安防监控、智能交通等方面发挥重要作用。

对于具身智能的未来发展,孙富春提到四个关键方向:首先是本体,即实际执行任务的载体,在物理或虚拟环境中感知并完成任务,灵活性强的机器人本体至关重要;其次是具身智能体,承担感知、理解、决策和控制等功能,能够自主与环境交互,目前大型语言模型和视觉语言模型为其提供了强大泛化能力;再次是数据,它是实现泛化的核心,但因数据获取成本高昂且量少,模型规模不断增大,对数据质量要求更高;最后是如何构建从简单仿真到复杂真实世界的模型,这也是智能体设计的重要挑战之一。

本文来源: 互联网 文章作者: 老罗讲金