VLA巅峰对决,端到端技术激战正酣,谁将引领自动驾驶未来?
VLA(Vision-Led Architecture,视觉主导架构)和端到端(End-to-End,E2E)是自动驾驶领域两种重要的技术路线,它们各有优劣,目前尚无定论哪种是通往自动驾驶的最优解。两者在感知、预测、决策和控制等环节的实现方式上存在显著差异,下面我们将分别探讨这两种架构的特点,并分析它们的优劣势。
"一、VLA(视觉主导架构)"
VLA 是一种以视觉信息为核心,结合其他传感器信息进行决策和控制的架构。其主要特点是:
"感知:" 主要依赖摄像头进行环境感知,同时融合激光雷达(LiDAR)、毫米波雷达(Radar)等其他传感器信息,以提高感知的准确性和鲁棒性。
"预测:" 基于感知结果,对周围物体的运动轨迹进行预测。
"决策:" 结合预测结果和预定义的规则或模型,进行行为决策。
"控制:" 根据决策结果,生成具体的控制指令,控制车辆的行驶。
"VLA 的优点:"
"数据丰富:" 摄像头可以提供丰富的语义信息,例如车道线、交通标志、行人等,有助于进行精细化的感知和决策。
"成本较低:" 相比 LiDAR 等传感器,摄像头的成本较低,更容易大规模部署。
"技术成熟:" 计算
相关阅读延伸:VLA大战端到端,谁才是通往自动驾驶的最优解?
8月26日, 自动驾驶公司元戎启行发布全新一代辅助驾驶平台——DeepRoute IO 2.0。元戎启行CEO周光介绍,该平台最大的优势就是搭载了元戎自研的VLA(Vision-Language-Action)模型,融合视觉感知、语义理解与动作决策三大核心能力。
目前在自动驾驶领域最主流的技术路线主要是端到端和VLA。选择VLA就意味着放弃端到端方案,周光直接向端到端开炮。
“VLA模型的下限已经超过端到端方案的上限。”
周光介绍其选择VLA有两个原因。
目前主流的智驾方案是在BEV视角下的端到端模型来实现,BEV存在先天局限,就像玩坦克大战,墙后的物体无法被看到,系统就会认为“不存在”。最核心的问题在于BEV不具备对高级语义和空间关系的理解能力。
现实驾驶环境中存在大量文字信息,例如交通标志、临时路牌等。有些是印刷在道路上的静态文字,可借助地图数据;但还有很多是临时设置,必须通过实时感知和理解才能正确处理。
周光认为,虽然传统模型无法解决,但这却是VLA模型的强项,它基于GPT-Transformer的神经网络架构,具备更强的语义和逻辑推理能力。他表示,目前的端到端系统更像一个黑盒子,用户不知道车辆为何刹车、为何变道。很多时候用户是在“猜”系统的行为。
周光表示,从技术层面来说,VLA模型可以称为“基于GPT的端到端模型”。这与传统的CNN端到端模型有本质区别——CNN架构自2012年发展至今,而GPT是基于Transformer的大模型架构,两者在参数量、数据处理等方面差异显著。
并且,VLA模型还具备思维链(COT)能力,支持长时序推理。短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史,语言是对现实的高效压缩。正因为能够进行长时序分析,VLA可以处理更复杂路况,完成更深层次的推理。
VLA的另一个优势是不挑数据。它可以通过互联网规模的数据蒸馏与训练,模型积累了丰富的常识,而这是CNN或BEV端到端系统所不具备的。
周光总结了VLA模型的四大基础功能:
1. 空间语义理解:如同为系统装上“透视眼”,能还原复杂环境,尤其针对盲区场景;2. 异形障碍物识别:识别各类车辆和物体,不再仅提示“障碍物”;3. 文字类引导牌识别:有效理解临时标志、道路文字,减少误判与违章;4. 记忆语音控车:不仅支持“快一点/慢一点”等基础指令,还能记忆用户偏好,实现个性化体验。
周光认为,VLA最难的是思维链(Chain of Thought, CoT)和长时序推理,这是VLA真正的核心能力。
目前在公开场合宣布聚焦VLA的智驾公司一共3家,除了元戎,另外两家是分别是小鹏和理想。周光认为VLA模型是一个跨时代的进展,它标志着自动驾驶正式进入大模型时代。何小鹏和李想都表达过相同的观点,只有通过大模型才能实现L4级自动驾驶。
有意思的是,在自动驾驶普及前夕,技术本该收敛的时刻却迎来是史诗级分野。·一部分人激进拥抱VLA时刻也有人对VLA说不,包括华为,地平线、Momenta、博世等头部玩家。其中,华为和Momenta已经明确表示不看好VLA,博世当下更倾向于端到端,地平线虽然并没有公开表态,但官方一直在强调端到端的技术价值,而且其即将量产的HSD也采用的是一段式端到端方案。
博世智能驾控中国区总裁吴永桥表示,VLA的多模态特征很难对其,数据要求大且高,而且对车端芯片算力要求高,有很多问题没有解决。
Momenta创始人曹旭东的观点更为犀利。他在上海车展期间表示:“VLA是锦上添花的方向,技术难度并不高”,对系统安全的提升最多5-10倍,而“规模化L4需要100-1000倍的提升”。警惕VLA“泡沫”,VLA只是锦上添花,并不是“万能钥匙”
曹旭东认为,VLA只是一种模型方案,加入了语言信息而已,没必要过分神话。有兴趣的朋友可以会看我们之前的内容。
而在华为看来,VLA在核心优势跟自动驾驶的使用存在天然悖论。自动驾驶车辆输入主要是视频、激光点云或者是雷达的点云,输出Action,VLA相当于在中间加了一个大语言模型,转换成动作Action来直接控车。大语言模型在业界是成熟的,各种开源的也很多,它的优点是文字推理能力比较强,对交通标识等场景的理解能力强。但它有个很大的弱点,空间的感知与推理能力不行。而自动驾驶的车是要做具体动作的,是在空间里面运动的,而对空间的准确感知与推理是自动驾驶的重要前提。
而且很多VLA模型都是基于业内比较成熟的开源方案二次开发,存在延迟等各种问题。
华为则是在端到端基础上提出了全新的技术架构——WEWA架构,既云端世界引擎和车端世界行为模型。我们对此做了详细介绍。华为乾崑打响第一枪!辅助驾驶迎来“类人”到“超人”的跨越
VLA拥护者认为,VLA是走向自动驾驶的最优解;而在另一些公司眼里,VLA是一些“投机取消”的方案。谁对谁错,只能等时间给出答案。
目前在自动驾驶领域最主流的技术路线主要是端到端和VLA。选择VLA就意味着放弃端到端方案,周光直接向端到端开炮。
“VLA模型的下限已经超过端到端方案的上限。”
周光介绍其选择VLA有两个原因。
目前主流的智驾方案是在BEV视角下的端到端模型来实现,BEV存在先天局限,就像玩坦克大战,墙后的物体无法被看到,系统就会认为“不存在”。最核心的问题在于BEV不具备对高级语义和空间关系的理解能力。
现实驾驶环境中存在大量文字信息,例如交通标志、临时路牌等。有些是印刷在道路上的静态文字,可借助地图数据;但还有很多是临时设置,必须通过实时感知和理解才能正确处理。
周光认为,虽然传统模型无法解决,但这却是VLA模型的强项,它基于GPT-Transformer的神经网络架构,具备更强的语义和逻辑推理能力。他表示,目前的端到端系统更像一个黑盒子,用户不知道车辆为何刹车、为何变道。很多时候用户是在“猜”系统的行为。
周光表示,从技术层面来说,VLA模型可以称为“基于GPT的端到端模型”。这与传统的CNN端到端模型有本质区别——CNN架构自2012年发展至今,而GPT是基于Transformer的大模型架构,两者在参数量、数据处理等方面差异显著。
并且,VLA模型还具备思维链(COT)能力,支持长时序推理。短期记忆依靠视频帧,长期记忆则借助关键帧与语言描述——正如人类通过文字记录历史,语言是对现实的高效压缩。正因为能够进行长时序分析,VLA可以处理更复杂路况,完成更深层次的推理。
VLA的另一个优势是不挑数据。它可以通过互联网规模的数据蒸馏与训练,模型积累了丰富的常识,而这是CNN或BEV端到端系统所不具备的。
周光总结了VLA模型的四大基础功能:
1. 空间语义理解:如同为系统装上“透视眼”,能还原复杂环境,尤其针对盲区场景;2. 异形障碍物识别:识别各类车辆和物体,不再仅提示“障碍物”;3. 文字类引导牌识别:有效理解临时标志、道路文字,减少误判与违章;4. 记忆语音控车:不仅支持“快一点/慢一点”等基础指令,还能记忆用户偏好,实现个性化体验。
周光认为,VLA最难的是思维链(Chain of Thought, CoT)和长时序推理,这是VLA真正的核心能力。
目前在公开场合宣布聚焦VLA的智驾公司一共3家,除了元戎,另外两家是分别是小鹏和理想。周光认为VLA模型是一个跨时代的进展,它标志着自动驾驶正式进入大模型时代。何小鹏和李想都表达过相同的观点,只有通过大模型才能实现L4级自动驾驶。
有意思的是,在自动驾驶普及前夕,技术本该收敛的时刻却迎来是史诗级分野。·一部分人激进拥抱VLA时刻也有人对VLA说不,包括华为,地平线、Momenta、博世等头部玩家。其中,华为和Momenta已经明确表示不看好VLA,博世当下更倾向于端到端,地平线虽然并没有公开表态,但官方一直在强调端到端的技术价值,而且其即将量产的HSD也采用的是一段式端到端方案。
博世智能驾控中国区总裁吴永桥表示,VLA的多模态特征很难对其,数据要求大且高,而且对车端芯片算力要求高,有很多问题没有解决。
Momenta创始人曹旭东的观点更为犀利。他在上海车展期间表示:“VLA是锦上添花的方向,技术难度并不高”,对系统安全的提升最多5-10倍,而“规模化L4需要100-1000倍的提升”。警惕VLA“泡沫”,VLA只是锦上添花,并不是“万能钥匙”
曹旭东认为,VLA只是一种模型方案,加入了语言信息而已,没必要过分神话。有兴趣的朋友可以会看我们之前的内容。
而在华为看来,VLA在核心优势跟自动驾驶的使用存在天然悖论。自动驾驶车辆输入主要是视频、激光点云或者是雷达的点云,输出Action,VLA相当于在中间加了一个大语言模型,转换成动作Action来直接控车。大语言模型在业界是成熟的,各种开源的也很多,它的优点是文字推理能力比较强,对交通标识等场景的理解能力强。但它有个很大的弱点,空间的感知与推理能力不行。而自动驾驶的车是要做具体动作的,是在空间里面运动的,而对空间的准确感知与推理是自动驾驶的重要前提。
而且很多VLA模型都是基于业内比较成熟的开源方案二次开发,存在延迟等各种问题。
华为则是在端到端基础上提出了全新的技术架构——WEWA架构,既云端世界引擎和车端世界行为模型。我们对此做了详细介绍。华为乾崑打响第一枪!辅助驾驶迎来“类人”到“超人”的跨越
VLA拥护者认为,VLA是走向自动驾驶的最优解;而在另一些公司眼里,VLA是一些“投机取消”的方案。谁对谁错,只能等时间给出答案。
1