人工智能领域正在发生新的模式变化。十年前,自动驾驶是技术探索的焦点:早期靠模块化感知和规则驱动,2019年后开始结合BEV和Transformer技术,现在又发展到端到端的大模型方向,经过多次技术更新,这个领域的技术已经趋于稳定,进入工程优化阶段。不过,在这同时,机器人领域正在慢慢成长起来。
2023年,隋伟从地平线加入地瓜机器人,他做出这个选择,是因为看到了两个领域交汇的关键节点。他在采访中提到,自动驾驶的技术体系已经慢慢稳定,接下来主要是工程上的优化;而机器人还处于早期发展阶段:硬件还没有固定的样子,算法框架也没确定,数据量比汽车行业少很多,但这也让这个领域充满了未知和机会。
这一现象背后,有几个重要的行业趋势值得关注。
自动驾驶的技术经验正在被用到机器人领域。比如,地瓜机器人就把自动驾驶领域积累的芯片技术、视觉处理、数据标注和数据循环处理能力,用到了机器人平台上。
硬件的不统一是目前最大的难题。汽车有统一的标准,比如四个轮子加一个方向盘,但机器人还在尝试各种不同的形态:轮式、双足行走、带双臂、灵活的手部结构等等。没有统一的形态,就很难大规模生产使用,数据也就不好积累,算法自然也没法快速改进。
数据稀缺而且不好收集。汽车行业有大量的驾驶数据,机器人数据却很难采集,标注成本也高,所以用仿真和合成数据来补充就成了重要的方向。
算法也还在探索阶段。像VLA这样的大模型虽然显示出端到端处理的潜力,但算法框架还没稳定,要实现通用应用还有很长的路要走。
在这样的发展不平衡中,学术界和产业界开始思考:能不能有一种方法,就像Transformer在自然语言处理中那样,给三维几何问题找到一个通用的解决办法?最近的学术研究里,已经有人尝试用VGGT(Visual Geometry Grounded Transformer)模型,去挑战长期由传统几何方法主导的三维重建和SLAM技术。有人觉得这可能是三维几何领域的“大模型时刻”。虽然这种尝试还没有定论,但它的潜在价值已经引起了越来越多人的关注。
特斯拉的自动驾驶技术有两个关键部分:一个是端到端的网络,直接从传感器获取数据,输出控制指令;另一个是数据循环系统,能不断生成高质量数据,用来优化模型,让模型性能达到更高水平。