首页 > 汽车技术 > 正文

理想自动驾驶技术中的双系统是什么?

2024-07-09 16:21:56·  来源:NE时代智能车  
 

7月5日,在2024智能驾驶夏季发布会上,理想汽车宣布将于7月内向全量理想AD Max用户推送“全国都能开”的无图NOA,并将于7月内推送全自动AES(自动紧急转向)和全方位低速AEB(自动紧急制动)。


同时,理想汽车发布了基于端到端模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构,并开启新架构的早鸟计划。


图片


理想汽车的自动驾驶全新技术架构受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发,在自动驾驶领域模拟人类的思考和决策过程,形成更智能、更拟人的驾驶解决方案。


理想汽车提到的端到端模型就是快系统,即系统1;VLM视觉语言模型就是慢系统,即系统2。


那么如何将这套双系统理论应用到自动驾驶领域,又有哪些关键的技术和挑战呢?


“NE时代智能车”将分三篇介绍,2024夏季发布会上,理想的自动驾驶技术。


本文重点介绍下理想自动驾驶的双系统。


01.快慢系统如何应用到自动驾驶?


理想方面在阐述双系统时介绍说,系统1就是人根据自己的过去的经验和习惯形成的直觉,还可以做出快速的决策,也可以称之为快系统或者快思考,比如回答1+1=?,其实基本不用思考直截了当说出答案,开车的时候,95%占比其实都是系统1在工作。


系统2是思维推理能力,需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。比如像开车可能只有5%的情况下,才会使用系统2。


简而言之,系统1和系统2形成了人类认知、理解和做出决策的基础,是认知世界的能力,这个能力其实还是一种理论框架。


具体来看,系统1就是一个端到端模型,它是直接用来快速响应的常规驾驶问题的模型。系统2是一个VLM(视觉语言模型),它具备一些逻辑思考的能力。


图片


当然,还要考虑如何验证系统1和系统2,一般需要通过云端的世界模型,来验证这个系统的应用能力。


图片


02. 理想端到端的三次迭代


先来看一下系统1,也就是理想端到端大模型。根据理想汽车的规划,端到端大模型要经历三次迭代。


图片


第一代NPN,是个模块化的架构,有感知有定位、有规划、有导航、有NPN,中间拿规则串在一起,这代架构支撑了理想在全国100个城市交付了城市NOA。


图片


第二代无图,分段式端到端。该系统架构就是理想最新发布的无图NOA。这块架构就只有2个模型——感知和规划,中间也是通过规则串在一起,去掉先验信息就意味着可以实现在全国都能开,有导航就可以开。


图片


第三代就是真正的端到端,只有一个模型:输入的是传感器感知信息,输出是行驶轨迹。


图片


03. one model的优势


理想规划的第三代端到端结构是one model,只有一个模型。


为什么要迭代到一个模型?


根据理想方面给出的解释,一个模型有三大好处。


一是高效的信息传递。之前的架构里都是有规则在里面的,规则其实就是个漏斗,它把很多有用的信息都滤掉了,导致整个系统的上限不太高。而一体化的模型的优势是,所有的这种信息都在模型内部去传递,系统上限就会更高,用户所能感受到的就是整套系统动作、决策更加拟人了。


二是高效的计算。一个模型加载到GPU内,可以一次性完成推理,那么整体的延迟会更低,用户能感受到就是手和眼更加协调一致了,反应不会像以前的慢半拍。


三是迭代速度更快了。一体化的模型,中间没有任何规则串在一起,则可以实现端到端的可训,这个完全的数据驱动,这样可以很轻松的做到周级的迭代或者是亚周级的迭代。对于用户来说,他的感受就是OTA的速度越来越快了。


图片


体现到具体应用中,一个模型的端到端有四大亮点能力,分别是通用障碍物的理解能力、超视距导航能力、道路结构理解能力和拟人的规划能力。


图片


具体来看下,端到端模型的架构图。左侧是输入,右侧是输出,左上半部分输入是常规的传感器,包括我们的摄像头和激光雷达,进入到一个专门为orin-X优化过的CNN的主干网络,提取它们的特征并融合在一起。


为了增强BEV空间特征的表达能力,理想加入了一些记忆模块,它不仅仅有时序上的这个记忆,还有空间上的记忆,类似于4D。


图片


然后除了这两个输入之外,理想还专门外设计了另外两个输入,一是自车的状态信息;二是导航信息,例如前方两公里这个导航信息,包括听到的一些语言文字,比如前方300米左转,这些信息进入到Transformer编码器之后,与加强后的BEV特征一起解码出:动态障碍物、道路结构、通用障碍物Occ(占用网络)以及规划出行驶轨迹。


端到端其实最终的目的,是把传感器映射成行驶轨迹。


为何理想要输出其他三样感知(障碍物、道路结构和占用网络)任务?


对此,理想方面解释是,这三样感知任务有两个作用:一是,是把周边的环境描绘出来,然后通过EID(环境信息显示)呈现给用户,让用户放心。


二是,纯从技术上的考量,作为整个端到端模型的辅助监督任务,可以加速行驶轨迹的收敛,可以在更短的时间内训出一个更好的模型。


04.端到端的训练


理想的端到端模型如何训练?


需要解决两个问题,数据和训练方法。


数据方面,理想拥有全国最大的自动驾驶车队,超过80万的车主在过去几年超过了200亿公里的行驶里程。


理想方面介绍,为了能够获取有效数据,他们定义了五星级司机的标准,也就是专车司机的标准。理想按这个标准去给用户打分。根据这一标准,超过90分的车主只占3%,理想将这些优质的数据能输入到模型中,累计了超过100万公里的数据,到年底可能超过500万公里。这远远超过一个人类司机的一生的驾驶里程。


训练方法上,理想有着自己的思考。理想方面认为,端到端模型的目的是学习行驶轨迹,它不像感知任务感知任务是确定性的。因为同一个司机在不同的场景、不同的时间,驾驶行为也不太一样,如果一味的只是去使用模仿学习去模仿,大模型会出现很多很诡异的驾驶行为。


因此,理想训练过程中加入强化学习,让它知道什么是错的,错的时候给它惩罚,这样就可以学出一个无论是驾驶技巧还是价值观都是非常正确的模型。


05.系统2的作用


根据理想的表述,系统1只能帮完成95%左右的驾驶场景,那么还有5%比较复杂的场景,需要用系统2来进行理解和判断。


图片


以天津为例,天津有很多这种潮汐车道,用LED灯或者是文字去表示。老城区还有很多单行道,单行道上面会有很多这种文字标牌,几点到几点是单行道。这些对于自动驾驶来说是非常难的,因为系统它不但要看清楚,而且还要理解上面写的字,还要做出相应的判断。这个时候,就需要系统2的能力。


例如,地面路面是非常坑洼不平,这时候系统2会给系统1发一个降速的提醒,并告知驾驶员前方的路面车辆将慢速行驶,减少颠簸,然后使整个自动驾驶系统在过这里的时候会更加舒适。


图片


黑天场景,整个在光线昏暗的情况下,系统2会让系统1做限速,然后这样使得整个驾驶更加安全可靠。


图片


例如,系统2能够在主辅路走错的情况下,能判断出来当前是跟导航是不一样的,导航显示现在要走辅路,结果我们在主路,系统2会说可以切换导航。也就是说,系统2能帮助系统1解决各种走错路的情况,甚至可以预防系统1走错。


再如,系统2能够稳定的识别公交车道,不但能知道它的类型,还能知道它的位置,更重要是它还能知道上面的时间,面向于当前时间做一个匹配,如果这个时间是合理的,系统2可以给出建议,就会说合理使用这个车道。


图片

图片


再如,如果这个地方是潮汐车道,不可同行区域。系统2会告诉系统1这个地方是不能走的,我们也可以保证系统1不会错过导航。


根据理想方面介绍,后续系统2还可以识别交警的动态手势、施工改道等更复杂的场景。

分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号