最近,加州大学的研究人员携手英伟达开发出一款名为“NaVILA”的全新视觉语言模型。这一模型为机器人导航带来了创新的解决办法。
NaVILA是一款多模态生成式人工智能模型,能处理文本、图像以及视频信息。它结合了大语言模型(LLM)和视觉编码器,使LLM具备理解与处理视觉信息的能力。传统的机器人往往依靠预先绘制的地图和复杂的传感设备,而NaVILA无需依赖地图。机器人只需接收人类自然语言的指示,结合实时的视觉画面和激光雷达数据,便能自行前往目标地点。
除了不再需要地图之外,NaVILA还把导航技术应用到了四足机器人上,增强了机器人适应复杂环境的能力。在实际测试环节,研究小组利用宇树Go2机器狗和G1人形机器人进行试验。结果显示,在家庭、户外及工作区域等真实场景下,NaVILA的导航准确率达到了88%,在复杂任务中的完成率也有75%。
NaVILA模型的特点包括: - 提升精度与效率:和其他大型视觉模型相比,NaVILA的训练成本下降了4.5倍,微调所需内存减少了3.4倍,预填充和解码的延迟几乎缩短了一半。 - 高清晰度输入:NaVILA模型采用高分辨率图像和视频中的多帧内容,确保不会遗漏任何细节。 - 压缩技术:英伟达采取了“先扩展再压缩”的策略,通过将视觉信息压缩成较少的标记,缩小输入数据量,同时保存关键信息,从而兼顾模型的精准度与效率。 - 多模态推理功能:NaVILA可以根据一张图片或者一段视频回答多个问题,拥有强大的多模态推理能力。
在视频基准测试里,NaVILA的表现超越了GPT-4o Mini,并且在与GPT-4o、Sonnet 3.5、Gemini 1.5 Pro等模型的竞争中表现优异。此外,NaVILA还在与Llama 3.2的较量中略胜一筹。
英伟达透露,他们打算尽快公开代码和模型,以便推动模型的重现性。