银河通用发布全球首个产品级端到端具身 FSD 大模型,联合宇树机器狗完成长程验证

图灵汇官网

图灵汇消息显示,银河通用推出了全球首款可商用的端到端具身FSD大模型——TrackVLA。这款大模型集成了纯视觉环境感知、语言指令驱动、自主推理以及零样本泛化能力,是一款面向实际应用的具身人工智能。

据图灵汇了解,TrackVLA是银河通用研发的一款导航大模型,它结合了“视觉-语言-动作”(Vision-Language-Action, VLA)技术,能够通过仿真动作数据进行训练。这意味着机器人可以实现从接收指令到执行动作的完整流程,具备“观察-理解-行动”的闭环能力。它不需要预先绘制地图,也不依赖人工遥控,而是依靠视觉输入和语言理解来完成任务。

TrackVLA具备多项核心功能:

首先,它能够准确理解用户的指令。例如,当用户说“跟着妈妈”时,它会迅速定位目标并切换至跟随状态。即使目标发生变化,比如改为“跟孩子”,它也能快速响应并更新目标。此外,它还能识别并跟踪宠物等其他移动物体。

其次,即便在拥挤的环境中,它也能精准锁定目标,避免误判。借助空间认知和视觉记忆,它可以在复杂的场景中持续追踪目标,不受周围环境干扰。

再者,如果目标暂时离开视线范围,TrackVLA不会停滞不前,而是通过智能算法预测目标的位置,并重新规划路径以找回目标。

另外,TrackVLA无需依赖预设的地图信息,仅凭视觉输入即可适应全新的环境。无论是陌生的商场、电梯还是游乐园,它都能稳定运行,完成长时间的自主跟随任务。

在应对障碍物方面,TrackVLA表现出色。无论是在充满玩具的儿童活动区还是狭窄的走廊里,它都能及时发现障碍物,并找到安全的通行路线。

对于光照条件的变化,TrackVLA同样游刃有余。无论是明亮的户外还是昏暗的室内,它都能保持稳定的性能,无需额外调整参数。

此外,用户可以通过手机应用程序实时查看机器人的视角,随时掌握家人的动向。系统还会自动提示潜在的风险行为,如小孩奔跑或老人摔倒,为用户提供安全保障。

值得一提的是,TrackVLA还展现了令人惊喜的能力扩展。除了跟随人类外,它还能适应各种移动目标,比如在路上遇到的流浪动物。这种能力完全是在训练过程中未曾教授过的。

目前,该模型已经安装在宇树机器狗上,作为“二宝保镖”协助监护儿童。在未经训练的实际场景中,TrackVLA成功完成了长时间的测试,包括在超市中穿行于人群和货架间,按照语音命令更换跟随目标,并在儿童玩耍时发出警告;它还能准确判断自身状况,利用大模型进行推理分析;在进入未知商场后,顺利完成连续跟踪任务;在繁忙的服装店里,有效避开其他人的干扰……

请注意,本文内容包含推广信息,链接仅为提供更多参考,具体效果需自行验证。

本文来源: 图灵汇 文章作者: 大话区块
    下一篇

IT之家 6 月 1 日消息,谷歌本周悄然发布了一款名为“Google AI Edge Gallery”的应用程序,该应用允许用户在其手机上运行一系列来自人工智能开发平台 Hugging Face 的