首页 > 汽车技术 > 正文

国内外6家企业智驾方案(端到端架构)对比

2024-06-07 18:21:04·  来源:汽车视界研究  
 

引言:当前已经量产的自动驾驶解决方案主要是以模块化的架构为主。现阶段使用较多的自动驾驶的模块化算法解决方案是将自动驾驶任务拆解成多个不同的模块,然后将对应的任务交给专门的模块进行处理。完整的模块化架构通常会包括:感知、定位、决策、路径规划和控制。


而端到端架构通过减少中间环节,将自动驾驶多个模块整合成了一个模块,自动驾驶也进入了数据驱动的下一阶段。


一、Tesla


特斯拉的端到端架构是自动驾驶领域的一个典型应用。Tesla的Autopilot和FSD(全自动驾驶)系统是业界领先的自动驾驶技术之一,利用了深度学习和人工智能技术,通过数据驱动实现了车辆的自主导航、控制和决策,特斯拉实现端到端架构经历了以下历程。


(1)2019年,发布“影子模式”。


影子模式是Tesla获取真实驾驶数据的核心。Tesla的车辆在行驶过程中(或所有状态下),传感器会持续对决策算法进行验证——系统的算法在“影子模式”下做持续模拟决策,并且把决策与驾驶员的行为进行对比。两者一致的数据不会有什么处理(目的是大幅缩小计算中心存储需求),一旦两者对比不一致,该场景便被判定为“极端工况”,进而触发数据回传。



(2)2020年,自研数据自动标注。


在车辆行驶过程中,摄像头收集的路面信息,打包上传到服务器的离线神经网络大模型,由大模型进行预测性标注,再反馈给车端各个传感器,当预测的标注结果在8个传感器均呈现一致时,则这一标注成功。


前文说到Tesla特通过影子模式搜集的数据,经过清洗和标注(自动标注+人工标注),与仿真数据共同构建训练集。训练集也用于车载模型的训练,完成之后更新到车上;以此往复,完成数据闭环(Tesla是最早实现数据闭环的车企)。



(3)2020年,引入BEV+Transformer架构,后引入时序信息。


Tesla认为采集的2D图像需要升维才能实现自动驾驶,而BEV(鸟瞰图)可以实现。因此引入大模型Transformer进行升维,实现将2D图像转换成BEV视角,形成车辆自身坐标系。BEV使得自动驾驶从决策层融合向特征级融合方向迈进,提升决策精准度且降低计算量。之后Tesla引入时空序列特征层,为自动驾驶增添短时记忆功能,从而具有推演能力,提升系统安全性。



(4)2021年,引入HydraNet神经网络架构


Tesla的HydraNet采用了先进的神经网络架构,如RegNet和BiFPN的组合,这些算法在图像识别领域表现出色,有助于提高物体识别的准确性。


HydraNet支持端到端的优化,意味着从输入到输出的整个过程可以作为一个整体进行训练和推理,有助于提高自动驾驶系统的整体性能和响应速度。HydraNet能够同时处理多个任务,如物体检测、车道识别、交通信号识别等,通过共享特征提取网络,提高效率并减少计算资源的消耗。



(5)2022年,引入占用网络Occupancy Network。


对感知模块进行了改进,将原本的BEV空间,分割成无数的体素(微小立方体),再通过预测每个体素是是否被占用。此时算法决策时不考虑这个物体到底是什么,只需要考虑体素是否被占用,从而简化了算法逻辑,提升决策精确性。在原有的BEV基础上,补充了①物体高度识别、②未经标注的障碍物的识别。



(6)实现端到端架构(不再写规则,感知决策一体化端到端架构,直接输出控制)


2024年,TeslaFSDv12(FSDv12.1.2)开始正式向用户推送,将城市街道驾驶堆栈升级为端到端神经网络。


端到端技术方案基于深度神经网络,通过摄像头采集驾驶场景的信息,将其作为深度卷积神经网络模型的输入,再不断对网络模型进行训练,得到学习好的网络参数,从而对智能车方向盘转角进行预测。


Tesla从当前架构过渡到端到端深度学习系统,过渡的关键是将规划器改造为完全使用深度学习,并使用联合损失函数进行训练。过渡后的系统将采用端到端学习,消除手动规则和代码,并允许模型在未知场景中更好地泛化。



端到端大模型对海量驾驶视频片段压缩,类比于大语言模型的生成式GPT,将互联网级别的数据压缩到了端到端神经网络的参数里,实现了驾驶知识的高效储存和应用全栈神经网络化的FSD是软件2.0时代的产物,完全基于数据驱动。训练数据的质量和规模成为决定端到端神经网络性能表现的关键因素。端到端架构的核心是数据,上文已经介绍了特斯拉在数据方面的优势。



特斯拉创始人马斯克首次展示 FSD V12时有一个关键内容:V12消除了30万行C++代码,V12中是纯粹的神经网络,实现了输入光子、输出执行命令的完全端(感知)到端(执行)。


二、Wayve


英国自动驾驶初创公司Wayve在当地时间2024年5月7日表示,已完成10.5亿美元的融资。其中软银集团(SoftBank Group)、英伟达(NVIDIA)和微软(Microsoft)参与了Wayve的C轮融资。


Wayve利用多模态大模型生成数据赋能端到端。Wayve的端到端方案,引入了多模态大模型GAIA-1(“自主生成AI”),一种生成世界模型。它利用视频、文本和动作输入来生成逼真的驾驶场景,同时提供对车辆行为和场景特征的颗粒度控制。具体而言,将世界建模视为一个无监督序列建模问题,通过将输入映射到离散标记,并预测序列中的下一个标记。模型中出现的特性包括学习高级结构和场景动态、上下文意识、泛化和对几何的理解。


GAIA-1的学习表征能力捕获了对未来事件的预测,结合其生成真实样本的能力,增强和加速了自动驾驶技术的训练。GAIA-1允许视频、文本和动作作为提示来生成多样化和逼真的驾驶场景。Wayve通过在真实世界的英国城市驾驶数据的大型语料库上进行训练GAIA-1,其学会理解和理清重要的概念,如静态和动态元素,包括汽车、公共汽车、行人、骑自行车的人、道路布局、建筑物,甚至交通灯。此外,它还通过动作和语言条件反射提供了对自我车辆行为和其他场景特征的细粒度控制。下图是GAIA-1多模态视频生成。



Wayve的训练数据集包含 2019-2023年间在英国伦敦收集的4,700小时、25Hz的专有驾驶数据。这对应于大约4.2亿张独特图像,这是一个海量的图片数据,但对视频数据而言还是微不足道。但Wayve的智驾方案核心在于它可以自己生成海量的近似人工标注的视频数据且成本极低,这些数据可以模拟各种近乎真实的场景,然后用这些数据进行端到端训练。


虽然Tesla的影子模式也可以获得海量的低成本近似于人工标注的视频数据,单实际上并非如此,马斯克在最近的访谈也称所谓影子模式拿到的图像(不是视频)有用的不到万分之一。


GAIA-1的工作原理如下:首先将模型分为两个部分:世界模型和视频扩散解码器。世界模型是一个自回归的转换器,它根据过去的图像、文本和动作标记来预测下一个图像标记。视频解码器以更高的时间分辨率将预测的图像标记映射回像素空间。下图是GAIA-1的架构。



对于世界模型,Wayve使用视频帧的矢量量化表示来离散每个帧,将它们转换为一系列tokens。随后,我们将预测未来的挑战重新定义为预测序列中的下一个token。该方法已被广泛用于训练大型语言模型,并因其通过缩放模型大小和数据来提高模型性能的有效性而得到认可。通过自回归生成,可以在世界模型的潜在空间内生成新的样本。


对于视频扩散解码器,它能够执行高分辨率视频渲染和时间上采样,以从世界模型自回归生成的信息进一步生成平滑视频(提高视频质量)。与大型语言模型类似,视频扩散模型已经证明训练规模与整体性能之间存在明显的相关性。下图是设置不同的天气和光照条件进行场景生成。


总结:GAIA-1可以捕获上下文信息进行理解,并生成相关的视频。例如,它可以根据初始条件或提供的上下文在视频中生成连贯的动作和响应。可以通过改变天气、温度等自然场景的描述生成不同的场景;对于倒车、减速、转弯等也可以随意改变角度进行视频生成。



GAIA-1能够生成连贯的场景,将物体放置在合理的位置,并表现出现实的物体互动,如交通信号灯,道路规则,让路等。这表明模型不只是记忆统计模式,而是理解控制世界上对象的排列和行为的潜在规则。它可以生成超越训练集中特定实例的的视频。它可以产生训练数据中没有明确出现的物体、运动和场景的独特组合,展示出卓越的推理能力。


三、百度


2024年5月15日,百度Apollo发布了支持L4级自动驾驶的大模型ApolloADFM(AutonomousDrivingFoundationModel)。百度的端到端架构属于两段式端到端,感知和决策规划有两段网络,后续通过隐形传递和联合训练实现端到端无人驾驶。



在感知端,通过摄像头得到视觉图像数据,并通过激光雷达和4D毫米波雷达得到主动光传感器数据。之后利用感知网络对视觉和主动光特征进行识别,融合BEV特征判断道路特征、障碍物等。再通过显式三维向量空间(使用三维坐标系来精确地表示物体的位置和方向)和隐式BEV特征(在BEV视角下,不直接给出三维空间中的所有信息,而是通过一些间接的方式,如特征编码或者深度学习模型来隐式地表示和推断这些信息),以联合训练的方式实现端到端无人驾驶。



四、商汤绝影


2024年4月25日,商汤绝影在北京车展发布面向量产的端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)。商汤的端到端架构实现了感知到规划,而国内其他很多厂商说的是感知到融合。


搭载UniAD端到端自动驾驶解决方案的车辆仅凭摄像头的视觉感知,无需高精地图,通过数据学习和驱动就可以像人一样观察并理解外部环境,然后基于足够丰富的感知信息,UniAD能够自己思考并作出决策,例如进行无保护左转、快速通行人车混行的红绿灯路口、完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作。



UniAD的核心是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化,不需要对感知数据进行抽象和逐级传递,,将原始信息直接输入到端到端模型中,然后以自车轨迹规划为准进行指令输出,实现端到端自动驾驶。



UniAD的具体优点如下:


首先,传统智驾方案和“两段式”端到端方案都是依靠人为定义的规则在传递显性信息,存在信息误差和丢失,难以完整准确还原外部场景,而一体化端到端自动驾驶大模型最明显的优势就在于信息的无损传递,端到端模型基于原始信息进行学习、思考和推理,最终能像人一样综合理解复杂的交通环境,并且能够不断成长,有着更高的能力上限。


其次,依赖数据驱动的端到端方案能够将其学到的驾驶能力和技巧迁移泛化到其他场景当中,具备更快的迭代效率,帮助车企更快速实现全国都能开的目标,无论是城区还是乡村道路。


最后,端到端自动驾驶大模型是像人一样感知和理解外部环境,纯视觉和无高精地图就是UniAD与生俱来的天赋,它只需要导航信息就可以把车驾驶到目的地,天然就能帮助车企降低软硬件成本。


Tesla的FSDV12等一体化端到端方案是基于一个不可解耦的模型打造,UniAD是将多个模块整合到一个端到端模型架构之下,仍可以对各个模块进行分别的监测和优化,相较于纯黑盒的端到端技术,UniAD方案具有更强的可解释性、安全性与持续迭代性。


五、华为乾崑


华为乾崑ADS3.0端到端是基于少量人工规则+端到端模型,并逐渐减少人工规则的数量。


乾崑ADS3.0主要包括GOD和PDP。华为的ADS是从感知BEV(鸟瞰图)网络开始的,可识别白名单障碍物;2023年4月发布最新的ADS3.0,引入GOD(通用障碍物检测)和PCR(道路拓扑推理)网络,现在开始进入场景理解阶段,构成了GOD大网。


GOD(通用障碍物识别)大网:乾崑ADS3.0基于GOD大网,实现了从简单的“识别障碍物”到深度的“理解驾驶场景”的跨越式进步。这不仅提升了智能驾驶的安全性,还改善了驾乘体验。


PDP(预测决策规控)网络:乾崑ADS3.0的全新架构采用PDP网络,实现了预决策和规划一张网。这使得决策和规划更加类人化,行驶轨迹更接近人类驾驶,通行效率更高。复杂路口通过率超过96%。



六、小鹏汽车


小鹏汽车的端到端架构是两段式架构。小鹏之前智驾系统的规则是十万(行代码)级规模,最新发布的端到端大模型能够实现10亿行代码才能达到的性能天花板,甚至更强。同时XNGP的端到端系统内,仍有部分的规则代码作为安全兜底。


此次小鹏量产上车的端到端大模型包括:感知神经网络XNet+规控大模型XPlanner+大语言模型XBrain。



从结构来看,小鹏的端到端架构仍分为感知、规控两大功能模块,其中最大的变化应该在于将过去基本完全由规则组成的规控模块,切换为神经网络为主。具体地,


XNet:侧重于感知和语义,实现了动、静态BEV网络和占用网络的三网合一,其中占用网络的空间网格超200万个。小鹏官方表示,其网格精度为业内最高精度的2倍以上。


三网合一后,XNet的感知范围提升2倍,达到1.8个足球场大小,对悬挂路牌、井盖、掉落纸箱等非标准障碍物识别能力提升至50+。


XPlanner:通过模型取代代码后,规控表现将更加拟人,前后顿挫减少50%、违停卡死减少40%、安全接管减少60%;


XBrain:XBrain 侧重于整个大场景的认知,通过大语言模型所具备的常识能力,提升感知和规控的推理和泛化能力。可读懂任何中英文文字,掌握各种令行禁止、快慢缓急的行为指令。


对于神经网络的不可解释性问题,小鹏汽车自动驾驶中心负责人李力耘表示,在端到端的架构下,三个网络联合训练标注,形成有一个有机整体。



资料来源

source

《End to End Learning for Self-Driving Cars》

《GAIA-1:A Generative World Model for Autonomous Driving》

《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers》

《汽车端到端自动驾驶系统的关键技术与发展趋势》清华大学等

Tesla、Wayve、华为、小鹏、百度、商汤绝影官网

其他来源:亿欧汽车、佐思汽车研究、焉知汽车、深蓝学院等公开资料整理


分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号