银河通用发布全球首个产品级端到端具身 FSD 大模型，联合宇树机器狗完成长程验证

投稿
APP
微信扫一扫获取更多

银河通用发布全球首个产品级端到端具身 FSD 大模型，联合宇树机器狗完成长程验证

大话区块

2025-06-01 10:35:02

图灵汇官网

图灵汇消息显示，银河通用推出了全球首款可商用的端到端具身FSD大模型——TrackVLA。这款大模型集成了纯视觉环境感知、语言指令驱动、自主推理以及零样本泛化能力，是一款面向实际应用的具身人工智能。

据图灵汇了解，TrackVLA是银河通用研发的一款导航大模型，它结合了“视觉-语言-动作”（Vision-Language-Action, VLA）技术，能够通过仿真动作数据进行训练。这意味着机器人可以实现从接收指令到执行动作的完整流程，具备“观察-理解-行动”的闭环能力。它不需要预先绘制地图，也不依赖人工遥控，而是依靠视觉输入和语言理解来完成任务。

TrackVLA具备多项核心功能：

首先，它能够准确理解用户的指令。例如，当用户说“跟着妈妈”时，它会迅速定位目标并切换至跟随状态。即使目标发生变化，比如改为“跟孩子”，它也能快速响应并更新目标。此外，它还能识别并跟踪宠物等其他移动物体。

其次，即便在拥挤的环境中，它也能精准锁定目标，避免误判。借助空间认知和视觉记忆，它可以在复杂的场景中持续追踪目标，不受周围环境干扰。

再者，如果目标暂时离开视线范围，TrackVLA不会停滞不前，而是通过智能算法预测目标的位置，并重新规划路径以找回目标。

另外，TrackVLA无需依赖预设的地图信息，仅凭视觉输入即可适应全新的环境。无论是陌生的商场、电梯还是游乐园，它都能稳定运行，完成长时间的自主跟随任务。

在应对障碍物方面，TrackVLA表现出色。无论是在充满玩具的儿童活动区还是狭窄的走廊里，它都能及时发现障碍物，并找到安全的通行路线。

对于光照条件的变化，TrackVLA同样游刃有余。无论是明亮的户外还是昏暗的室内，它都能保持稳定的性能，无需额外调整参数。

此外，用户可以通过手机应用程序实时查看机器人的视角，随时掌握家人的动向。系统还会自动提示潜在的风险行为，如小孩奔跑或老人摔倒，为用户提供安全保障。

值得一提的是，TrackVLA还展现了令人惊喜的能力扩展。除了跟随人类外，它还能适应各种移动目标，比如在路上遇到的流浪动物。这种能力完全是在训练过程中未曾教授过的。

目前，该模型已经安装在宇树机器狗上，作为“二宝保镖”协助监护儿童。在未经训练的实际场景中，TrackVLA成功完成了长时间的测试，包括在超市中穿行于人群和货架间，按照语音命令更换跟随目标，并在儿童玩耍时发出警告；它还能准确判断自身状况，利用大模型进行推理分析；在进入未知商场后，顺利完成连续跟踪任务；在繁忙的服装店里，有效避开其他人的干扰……

请注意，本文内容包含推广信息，链接仅为提供更多参考，具体效果需自行验证。