领先华为半代？理想压箱底的端到端大招能否迈入自动驾驶第一梯队

秉淳经验 2024-07-09 777 0 生而耀眼我很抱歉

车东西

作者｜Janson

编辑｜志豪

理想ADMAX背后的激进，是落后半代的紧张。

车东西7月9日消息，距离理想拿出其端到端 VLM大模型无图智驾技术不过过了一个周末的时间，网络上也引发了理想这套新技术在行业地位上的讨论。

同时，理想可能也是第一个把自己的具体技术专门办一个发布会来给大家讲透彻的主机厂，可见其对自己的技术先进性是有一定自信的。

目前来看，国内公认第一梯队的华为、小鹏依旧还采用了分段式端到端的技术来实现其无图NOA系统的功能。

▲理想4DOneModel

而这次理想直接搞了一个“4DOneModel”的一体化决策网络，直接把感知决策合二为一，实现从数据输入到路径输出只经过一个模型。

▲华为ADS端到端路线图

华为的无图NOA有预决策和规划一张GOD（通用障碍物识别）大网 PDP（预测决策规控）网络两部分组成，领先华为半代？理想压箱底的端到端大招能否迈入自动驾驶第一梯队小鹏的XNGP则也是由神经网络感知网络XNet、规控大模型XPlanner和大语言模型XBrain三个部分分段完成智驾的感知到决策的过程。

▲小鹏端到端大模型示意图

至于为什么说领先“半代”而不是一代的原因也很简单，一方面，华为的白名单决策小网只占一小部分，并没有太大的权重，距离“OneModel”也十分接近，另一方面站在这些智驾产品的最前边还有祖师爷一般地位的特斯拉FSDV12。

FSDV12这套系统不仅是感知决策端到端，甚至实现了驾驶端到端，简单来说就是实现了从数据输入到油门输出都只经过这一个系统，可谓是端到端系统的“天花板”了。

当然目前来看理想这套端到端 VLM（视觉语言模型）系统也并非可以直接“大杀四方”，无论是端到端的系统一还是VLM的系统二，也都是黑盒状态，黑盒与黑盒之间的决策，对于后期的调优有着比较大压力。

一、理想智驾推出快慢双系统PK华为大网理想这次在端到端的运用上可以说是相当的激进，4DOneModel的做法在很大程度上已经不再依靠人来写规则，而是把绝大部分的决策都交给了AI来做。这很可能也是从NPN路线切换到无图路线后，综合了理想目前在市场上的情况作出的决定。

▲理想智驾双系统理论

具体来说，在这种架构中，理想汽车提到的“端到端模型”对应于系统一，它负责快速响应和直觉性决策。

系统一采用的端到端大模型，有三个迭代阶段。

▲理想智驾系统端到端路线图

第一代，称为NPN，采用了模块化架构，依赖先验信息。

这个架构包括了感知、定位、规划、导航等多个模块，并通过规则将它们连接起来。这个阶段的架构支持了理想汽车在全国100个城市推出的城市NOA服务。

第二代，即无图NOA，采用了分段式端到端架构。

这个系统简化为只有两个模型：感知和规划。同样，这些模型通过规则相连，但与前一代不同的是，它去除了对先验信息的依赖，这意味着它可以在全国任何地方使用，只要有导航数据即可。

第三代是真正的端到端架构，它仅包含一个模型。

这个模型接收来自传感器的感知信息作为输入，并直接输出车辆的行驶轨迹。这个阶段代表了理想汽车在自动驾驶技术上的一个重要进步，即通过简化模型结构，实现了从输入到输出的直接映射，从而提高了系统的效率和响应速度。

而“VLM视觉语言模型”则相当于“慢系统”，即系统二，它涉及更深层次的思维推理。

▲理想智驾VLM决策图

理想汽车解释说，系统一类似于人类根据经验和习惯形成的直觉，能够进行快速决策，例如在回答“1 1=？”这样的简单问题时，几乎不需要思考就能立即给出答案。在驾驶过程中，大约95%的情况下是由系统一来处理的。

这样的系统一和业内主流的端到端智驾技术一样，注重低延迟、快速响应，面向绝大部分场景。

相比之下，系统二涉及到更为复杂的思维推理能力，它用于解决需要深入思考或推理的复杂问题，以及在遇到未知场景时的应对策略。在驾驶中，大约只有5%的情况下需要调用系统二。

对比华为ADS3.0来看，华为ADS3.0采用了一种结合少量人工规则与端到端模型的技术，并正逐步减少对人工规则的依赖。

该系统主要包含两个关键部分：GOD（通用障碍物检测）和PDP（预测决策规控）。

▲华为ADS3.0架构图

华为ADS系统起初从BEV（鸟瞰图）感知网络起步，专注于识别预定名单上的障碍物。到了2023年4月，华为推出了ADS3.0的更新版本，新增了GOD网络和PCR（道路拓扑推理）网络，标志着系统进入场景理解的新阶段，从而构建了GOD大网。

GOD大网使得ADS3.0在障碍物识别方面实现了较大的飞跃，从基础的障碍物识别跃升至全面的驾驶场景理解。这一进步显著增强了智能驾驶的安全性，并且优化了驾驶体验。

▲华为PDP网络示意图

同时，ADS3.0还采用了全新的PDP网络架构，将预测、决策和规划整合为一个统一的网络。这一架构让决策和规划过程更贴近人类驾驶员的行为，使行驶轨迹更加自然，提高了通行效率，特别是在复杂路口的通过率已超过96%。

可以说华为和理想在选择技术路线的时候也是异曲同工，都采用了通用专用的做法。

不同的是，理想在解决ConnerCase的时候也相当激进的采用了由AI进行推理和决策的黑盒，降低了人工算法的干预，华为ADS则还偏向保守，依然保留了人工算法的介入。

从结果来看，有人工规则的介入，方便开发调优，尽管华为保留了人工规则，但它们的“全国都可用”的确早了很多，在今年年初便已实现。

理想采用的双黑盒，由系统一和系统二统一共同构成了人类认知、理解和决策的基础则确实来的慢了一些，在今天7月才开始早鸟体验。

一个是技术上领先华为半代的理想，另一个则是一步一个脚印率先“开城”的华为，但从技术角度上去分一个孰优孰略确实意义不大，更多的还是要看市场和消费者的真实体验才是硬道理。

二、慢系统如何解决5%的ConnerCase详解理想DriveVLM相比于系统一能够处理大约95%的驾驶场景，但剩余5%的复杂场景则需要系统二的深度理解和判断能力。

以天津为例，该城市有许多潮汐车道和单行道，这些道路通常通过LED灯或文字标识来指示。对于自动驾驶系统来说，不仅要清晰地识别这些标识，还要理解其含义并做出相应的驾驶决策。这时，系统二的能力就至关重要。

▲理想智驾“系统二”面临的场景

例如，当地面道路凹凸不平时，系统二会向系统一发出降速提醒，并通知驾驶员前方路面状况，以便自动驾驶系统可以更加平稳地通过。

在夜间或光线昏暗的场景中，系统二会指导系统一限制速度，以确保驾驶的安全性。

此外，系统二还能在主辅路走错的情况下进行判断，并能够识别出当前行驶路线与导航指示不符，从而提供切换导航的建议。这意味着系统2能够帮助系统1避免或纠正路线错误。

为了顺利实现这样的功能，理想提出了VLM（视觉语言模型）的概念，并在ADMAX的双Orin-X中的其中一颗上部署。

▲VLM推理效率提升示意图

然而，Orin并非专门为VLM这样的Transformer模型设计，部署在这样的平台上面临着效率和性能相关的问题。

根据DriveVLM研发团队在《DRIVEVLM:TheConvergenceofAutonomousDrivingandLargeVision-LanguageModels》一文中，具体阐述了DriveVLM模型的部署和性能问题。

文章中提到，DriveVLM在Orin平台上的推理速度为1.5秒，这比传统的自动驾驶模型慢了5倍。显然，这样的速度无法满足自动驾驶对实时性的要求。

为了解决这一问题，DriveVLM团队提出了DriveVLM-Dual的概念，旨在提高模型的实时响应能力。

▲DriveVLM-Dual推理速度

解决了DriveVLM的推理延迟问题，可以深入探究一下这个22亿参数的VLM在解决问题上的具体流程。

DriveVLM模型在推理过程中主要采用了思维链（ChainofThought,CoT）方法。

首先，DriveVLM对输入的图像序列进行整体描述，以捕捉环境的关键特征。接着，模型逐步分析场景中的重要元素，包括识别关键对象（如车辆、行人、交通标志等），分析这些对象的属性和状态，并评估它们对驾驶决策的潜在影响。

基于前面的分析，DriveVLM进行多步推理，考虑可能的行动选项，评估每个选项的潜在结果，并权衡不同因素（如安全性、效率、舒适性等）。

最后，模型生成具体的规划输出，包括高级动作描述（如”减速并让行”）和详细的决策解释，以及轨迹路径点。

这种推理过程使得DriveVLM能够像人类驾驶员一样进行深思熟虑的决策，从而提高自动驾驶的安全性和可靠性。

从“跑分”结果来看，DriveVLM模型在nuScenes数据集的规划任务上实现了相当先进的性能表现。（nuScenes是一个公开的自动驾驶数据集，常用于测试和评估自动驾驶系统的性能）

▲DriveVLM-Dual性能测试结果（越小越好）

对比华为ADS3.0来看，尽管它们没有提供更细节的资料，但是从目前ADS3.0发布会上的内容来看，华为的PDP网络也是在人工规则的基础上向大模型的方向在靠拢。

显然，华为这套方案也走得更快，即将在8月6日发布的享界S9即将首发量产这套方案，相比于理想的方案还是要快上不少的。

三、数据训练成重点国内智驾转向全程端到端竞争在算法趋同的背景下，提升训练量成为了新的“兵家必争之地”，马斯克也曾公开强调，特斯拉FSD测试里程需要达到60亿英里（约合96.56亿公里），才能满足全球监管机构的要求。

而特斯拉4月6日公布的数据显示，FSD实际测试里程为10亿英里（约合16.1亿公里）。

可见现在几乎所有的智驾方案都在“卷”训练量。

理想方面提到，目前的简单3D生成场景“一眼假”，对于实际的智驾训练帮助不大，需要尽快找到合适的场景生成方式。

对此，华为MagicDrive3D和理想DiffusionTransformer两家的路线都不约而同的看向了高斯溅射技术。

从香港中文大学、香港科技大学、华为诺亚方舟实验室联合发布的论文《MagicDrive3D:Controllable3DGenerationforAny-ViewRenderinginStreetScenes》来看，MAGICDRIVE可以通过路线图、对象框和文本（例如天气）中的控件生成连续的摄像机视图。

然而，MAGICDRIVE将所有内容投影到BEV地图或BEVcontrol并不能确保街景生成的精确指导。

▲MagicDrive3D生成示意图

为此，论文中提出了一种MagicDrive3D技术，用于可控3D街景生成的新型管道，支持多条件控制，包括BEV地图、3D对象和文本描述。

同时为了解决生成内容中的小错误，它们提出了带有单目深度初始化和外观建模的可变形高斯飞溅，以管理不同视点的曝光差异。

从文章的“跑分”结论来看，在随机100个用于评估的nuScenes验证集性能上来看，使用MagicDrive3D都有十分不错的表现。（↓为数据越低越好，↑反之）

▲MagicDrive3D性能结果（↓为数据越低越好，↑反之）

相比于华为的MagicDrive3D理想汽车则对于数据训练也采用了基本相似的方式，它们计划在自动驾驶系统中采用创新的“重建生成”的世界模型测试方案。

这一方案首先通过3DGS（3D高斯溅射）技术对真实数据进行场景重建，然后利用生成模型补充新的视角，从而创建出既符合真实世界场景又能解决新视角模糊问题的环境。

此外，该系统的生成部分可以独立运行，通过结合Layout（布局）先验、Reference（参考帧）图像和Prompt（提示词），生成符合真实规律但未见过的全新场景。

▲理想DiffusionTransformer架构示意图

在场景重建过程中，理想采取了动静态分离的核心策略：对静态环境进行重建，对动态物体则进行重建和新视角生成，从而创建出360°的全新资产。将这两者结合，生成了一个可编辑和调整的3D物理世界，实现了场景的部分泛化。

生成模型相较于重建模型具有更好的泛化性。理想能够自定义地改变天气、时间、车流等条件，生成多样化的场景来测试模型的泛化能力，并评估自动驾驶系统在各种条件下的适应能力。