理想硬控车圈小时：无图全国都能开，端到端决策更像人

唯昔百科 2024-07-07 212 0 大众文学网

7月内全量推ADMax用户”

作者|王磊

编辑|秦章勇

昨晚，理想开了一场智能驾驶夏季发布会，与其说是发布会，更像一场理想汽车的AIDay。

复盘整场活动，技术干货满满，甚至有点过于干了。。

从推送“全国都能开”的无图NOA，再到后半场的基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构。

或许因为纯技术类解读，李想本人并没有在发布会露面。看来自理想MEGA发布以来，李想越来越低调，但理想汽车的斗志却越来越强了。

理想拉齐“无图化”

这次的发布会，最重磅的莫过于理想的智能驾驶迎来拐点——无图NOA，并将在7月内全量推送。

这次升级虽然覆盖了理想MEGA和理想L9、理想L8、理想L7、理想L6全部车型，但仅限ADMax版本。

理想有两套独立智驾方案，分别是“ADPRO”和“ADMAX”，具体到车型也很好区分，理想L系列MAX版以上搭载都是”ADMAX“高阶智驾，具备城区和高速NOA功能；PRO、AIR车型搭载的都是”ADPRO“智驾，具备高速NOA功能。

从这次的发布会的重点来看，只是针对ADMAX方案的优化。

而且直接和众多友商看齐：全国都能开，不论城市主干道、小道还是乡间，能导航的地方都可以使用。

在发布会上，理想汽车还展示了一张在全国范围内，在18点到20点这两个小时之间使用无图NOA的用户数据，根据他们的位置，形成了一张轨迹图，以此来佐证理想汽车的无图NOA真正具备了全国都能开的能力。

最新的无图NOA相比过去的版本，BEV、感知能力、规控能力，还有整体系统能力得到全面提升，特别是将纯视觉的OCC占用网络升级为Lidar与视觉前融合的占用网络，具备分米级的微操能力，从而精准识别更大范围内的不规则障碍物，感知精度更高。

做到“全国都能开”，是因为无图的概念就代表着不再依赖高精地图或先验信息，在以往的智驾决策中理想打了个比方，就像背后很多“小机器人”在运行，可能有一些“小机器人”需要一些先验信息，也就是需要导航数据的先验信息进行决策。

而通过运用BEV算法的感知能力进行一系列技术复合决策，并将摄像头拼接的周边环境、道路信息、导航提供的轨迹和数据信息全部合并在一起，形成超视距能力，在行驶的过程中就可以生成最优路线，不再过多依赖“先验”信息。

另外，新系统采用了全新的时空规划算法，使整体决策变得果断，从而表现出第二个特点———绕行能力强。

绕行能力是评价城市NOA的一个重要指标，因为其在实际驾驶中应用的场景非常频繁，比如遇到动静态的障碍物，优秀的绕行能力可以巧妙化解，绕行能力弱就只能陷入无尽的等待，理想硬控车圈小时：无图全国都能开，端到端决策更像人甚至接管。

这里理想汽车衍生出了时间和空间的概念，通过横纵（前后左右）同步规划，能够持续预测自车与他车的空间交互关系，并规划出“未来一段时间窗口内”的所有可行驶的轨迹，筛选出最优最高效的轨迹。

这样一来，即便是在复杂路口也能轻松通过，仿佛拥有了“上帝视角”，也是其另一个特点——路口轻松过。

搞定“高频低危”

理想汽车表示，今年上半年，理想汽车人类驾驶的事故率降低了30%，期间理想ADMax主动安全系统共为用户规避了36万起潜在事故，且AEB误触发率降低到小于30万公里。

而且对于道路上的潜在威胁，理想汽车做了一个「安全风险场景库」，按照从低危到高危、从低频到高频的顺序排开，把风险场景分成了9种类型。

理想汽车高级副总裁范皓宇表示，去年推送的OTA5.0已经能够应付「低频高危」和「中频中危」这两个部分的威胁。

如今推送的OTA6.0就是要提升车辆在高频低危场景下的能力。

比如在经过复杂路口，理想汽车的AEB（自动紧急制动）系统能够全面覆盖行人、两轮车和三轮车等典型障碍物，无论它们从左、右或前方靠近，系统都能及时响应。

而且系统内设计了安全阈值，一旦有障碍物侵占了理想汽车的安全系统区间，都会启动AEB帮助用户主动刹停。如果出现了在盲区的车辆，自己的车辆侵占了对方的安全性空间，同样会主动刹停。

另外就是高速上的夜间行驶，周围基本上没有光照的情况下，夜间AEB尤为关键。如果前方不远处有一辆货柜车停着静止不动，没有开灯、没有反光条，这样的场景下，ADMax的AEB能做到120公里时速完全刹停。

理想汽车还提供了全自动AES（自动紧急转向）功能，以应对“消失的前车”这种极端场景。

比如说，以非常快的速度在高速上行驶时，突然前车急刹停或者避让，因为距离太近无法及时停下时，这种情况下AES（自动紧急转向）就会介入，车辆会减速并执行避让功能，进一步提升了安全的上限。

最后，还提供了全方位低速AEB（自动紧急制动），主要针对泊车和低速行车场景。

在日常的高频低速场景中，特别在地库停车环境复杂的情况下，可能会出现比如柱子、墩子或者低速的行人增加剐蹭风险，全方位低速AEB就能识别来自前向、后向和侧向的碰撞风险，及时紧急制动。

当然，从安全性的功能上看，可以说是全方位无死角的保护，但是在实际应用中出现误报和误刹也是一个不小的困扰，这一点仍需要后续的实际体验。

双系统支持

除了7月内推送无图NOA，理想汽车还在发布会的后半程提出来一个灵魂拷问：真正实现自动驾驶的技术方案是什么样的？

理想给出的答案，也是端到端大模型，不过理想认为如果面对中国复杂路况，只有端到端不够。

基于此，理想提出来一个全新的方案：E2E（端到端大模型） VLM（视觉语言模型）。

有意思的是，这个方案的灵感还是来源于认知心理学的原理，诺贝尔奖获得者丹尼尔·卡尼曼在《思考，快与慢》中，使用系统1和系统2的理论来解释了人类决策和思考的过程。

系统1是人根据自己过去的经验和习惯形成的直觉，可以做出快速的决策，比如“1 1=2”的问题系统2就是一个思维推理能力，人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。

简言之，系统1和系统2相互配合，构成了人类认知和理解世界、做出决策的基础。

那么，系统1和系统2是如何类比到自动驾驶中的？很简单，端到端是系统一，作为主决策者，VLM视觉语言模型，当作系统2，可以理解为系统1的“冗余”。

这么理解就简单了，运用端到端技术处理泛化的场景，而VLM视觉语言模型作为系统2，则具备一些逻辑思考的能力，会在一些复杂情况下验证“端到端”的决策，最终实现车辆的兜底或控制。

按照理想汽车智能驾驶技术研发负责人贾鹏的说法，人开车的时候其实都是系统1在工作，可能只有5%的情况，会使用系统2。

理想汽车也表示，届时会有两颗Orin-X分别负责系统一和系统二。

如今端到端大家都知道是怎么回事，但理想提出的VLM视觉语言模型还很新鲜的。

VLM视觉语言模型可以看做是一个统一的Transformer模型，参数量能达到22亿，Prompt（提示词）文本进行Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统1辅助控制车辆。

通俗点说，其具备强大的理解能力，识别路面平整度、光线等环境信息，同时，VLM模型还具备更强的导航地图理解能力，可以修正导航，预防驾驶时走错路线。

不过如今这套系统还没能上车验证，但理想为了验证这些技术的有效性，他们使用DiffusionTransform在模拟环境中构建小型世界模型，让车辆在其中进行测试。

理想称其为自动驾驶系统考试方案，其中包括“重建生成”。

理想先是通过3DGS（3D高斯溅射）技术对真实数据进行场景重建，然后利用生成模型补充新的视角，从而创建出既符合真实世界场景又能解决新视角模糊问题的环境。

在场景重建时，其中的动静态要素将被分离，静态环境得到重建，动态物体则进行重建和新视角生成。再经过对场景的重新渲染，形成3D的物理世界，其中的动态资产可以被任意编辑和调整，实现场景的部分泛化。

生成模型相较于重建模型具有更好的泛化性。理想能够自定义改变天气、时间、车流等条件，生成多样化的场景用于评价自动驾驶系统在各种条件下的适应能力，通过这种无限环境，理想可以对自动驾驶系统进行充分的学习和测试。

虽然尚未得到验证，但也不远了，理想汽车在发布会上透露，端到端 VLM大模型也即将开始内测，尽早让用户进行早鸟体验。