端到端自动驾驶:产业与学术的深度剖析
端到端自动驾驶产业与学术的深度剖析
· 前言 ·
中汽研汽车科技(上海)有限公司作为华东分中心的承载主体,积极投身于端到端技术、大模型技术等新兴技术领域的深度研究与大胆探索。精心布局端到端自动驾驶技术与大模型技术业务,广泛涵盖测试、咨询、产学研等多个维度,以创新引领行业发展潮流,为汽车产业的辉煌未来贡献力量。
当前,端到端自动驾驶技术正吸引着全球目光,并被众多企业和研究机构踊跃投入资源进行布局。中汽研汽车科技(上海)有限公司同样高度重视,并持续探索中。
01
摘要
自动驾驶技术有望通过减少人为错误,显著提升道路安全,缓解交通拥堵和减少经济负担。在学术界和工业界突破性进展的推动下,端到端自动驾驶(AD)近年来迅速发展。与传统的模块化自动驾驶流水线不同,端到端方法旨在利用深度学习将原始输入(摄像头、激光雷达等)直接映射到驾驶决策(轨迹或控制指令)。这有望减少误差积累并提高适应性,但也带来了安全性和可解释性方面的挑战。最近的研究主要集中在统一模型内的轨迹规划、感知和控制,以及利用大模型为驾驶系统注入更广泛的世界知识。与此同时,行业领导者(特斯拉、英伟达、Waymo、Momenta 等)也从传统的模块化自动驾驶方案更新到端到端架构和产品,涌现出从纯视觉驾驶堆栈到多模态大模型解决方案多种端到端的自动驾驶系统。本文回顾了近年来学术研究(如 CVPR、ICRA、NeurIPS 论文)和行业(主要自动驾驶公司)的主要发展,重点介绍了主要技术路线,并评估了其对自动驾驶未来的影响。
02
学术进展
近年来,端到端自动驾驶技术的发展离不开特斯拉的引领,从2021年提出BEV网络,到2022年提出占用网络,再到2023年提出世界模型结合大模型的井喷式爆发,最终引发学术领域对端到端网络的广泛研究。端到端网络核心是通过大模型整合感知、规划与控制模块,实现数据驱动的类人驾驶能力。下面从传统的端到端网络、加入安全策略的端到端网络以及和语言大模型结合的端到端网络展开介绍。
首先,一个值得注意的学术趋势是使用学习的场景表征(如占用网格)来指导规划。例如,Liu 等人(南洋理工大学)提出了 “占用率预测引导规划”(OPGP):这是一个两阶段的神经规划框架,首先使用统一的 Transformer 骨干来联合预测行动者和多模式规划目标的动态占用率,然后将占用率预测输入下游的轨迹优化器。通过将预测融入规划,他们的规划器实现了比之前的模仿学习方法更安全、更平稳的操纵。[1]

图1:OPGP模型结构 [1]
另一种方法是在鸟瞰(BEV)空间中进行规划。2023 年 CVPR 最佳论文 “Planning-oriented Autonomous Driving ”介绍了 UniAD,这是一个统一的框架,在一个端到端模型中整合了整个驾驶堆栈(感知、预测、规划)。UniAD 采用基于查询的架构来连接子任务,确保所有学习到的特征最终服务于规划目标。这种多任务设计在 nuScenes 基准任务中的表现明显优于早期基于视觉的端到端模型。这表明,将感知与规划紧密结合可以减少误差积累。研究人员还探索了将学习与经典轨迹表征相结合的方法,例如,一些规划器会输出下游控制器可以轻松遵循的参数曲线或航点,从而将神经网络的灵活性与广为人知的控制方案的可靠性结合起来。[2]

图2:UniAD模型结构 [2]
端到端方法始终面临的一个挑战是确保闭环(反馈)设置中的性能,并做出不仅安全而且类似人类的决策。为解决这一问题,Huang 等人采用反强化学习(IRL)引入了有条件的行为规划框架,以模仿人类驾驶风格。他们的系统生成各种轨迹建议,使用条件预测模型来预测其他自动驾驶模型对每种自我行为建议的反应,然后用基于 IRL 学习的奖励模型对这些计划进行评分。 这种方法提高了预测精度和决策质量,规划者可以选择最接近人类驾驶员行为的轨迹,从而在与真实驾驶的相似度方面优于其他参照方法。这篇文章的结论凸显了一种趋势,即让端到端规划者意识到自身对环境的影响(其他代理的反应),从而超越了固定环境预测的典型假设。[3]

图3:Huang提出的模型结构 [3]
过去两年,研究人员开始将大型语言和视觉模型应用于自动驾驶。在海量数据基础上训练的基础模型(如大型语言模型、视觉转换器)具有丰富的世界知识和推理能力,可以帮助自动驾驶系统更好地泛化到罕见或复杂的场景中。一个突出的例子是 Waymo 的 EMMA(端到端多模态自动驾驶模型),该模型于 2024 年底亮相[4]。
EMMA 建立在谷歌的多模态双子座大语言模型基础上,并针对驾驶任务进行了微调。独一无二的是,EMMA 在统一的 “语言 ”空间中表示所有这些任务,将非传感器输入/输出(地图、轨迹、三维坐标)转换为自然语言标记,以便与 LLM 接口。这使得 EMMA 能够应用思维链推理(Chain-of-Thought)进行决策,将端到端规划的成功率提高了约 6.7%,并为其行动提供了可解释的理由。EMMA 在公共数据集(nuScenes 运动规划)上取得了最先进的规划结果,在 Waymo 内部数据集上也表现出色,同时使用一个通用模型联合处理多个任务。[5]

图4:EMMA模型结构 [4]
同样,学术团队也在探索使用语言模型来提高端到端驾驶的可解释性。Xu 等人介绍了 DriveGPT4,这是一种基于 LLM 的驾驶代理,能够接收多帧视频输入,并输出转向和油门指令以及有关其决策的自然语言解释和问答。 他们为驾驶建立了一个特殊的指令调整数据集,使 DriveGPT4 能够使用与控制相同的内部逻辑来回答问题,例如 "你刚才为什么刹车?”。虽然这类系统仍处于实验阶段,但它们暗示着未来单一的大型人工智能模型可以理解交通环境、规划操作,甚至交流推理。[6]

图5:DriveGPT4模型结构 [6]
总体而言,学术界越来越多地将大型模型视为统一驾驶中众多子任务的一种方式,并利用从各种数据(文本、图像、视频、地图等)中学习到的知识来处理边缘情况,尽管在效率和大量训练数据需求方面存在挑战。
03
产业进展
特斯拉一直是在消费类汽车中部署端到端深度学习的先驱。2023 年,特斯拉的全自动驾驶(FSD)测试版 v12 因采用纯视觉规划方法而备受关注。FSD v12 系统引入了一个神经网络,该网络可在占位网格鸟瞰(BEV)空间中规划汽车轨迹,使用占位网络来模拟道路环境。这种方法使特斯拉能够减少对详细高清地图的依赖,而是学会即时预测空闲空间和障碍物。多摄像头融合的 BEV 规划在处理复杂场景方面表现出令人印象深刻的优势,尽管它需要特斯拉的海量视频数据集和计算资源来进行训练。[7]

图6:特斯拉 Occupancy Network 识别车辆周围障碍物 [7]
到 2024 年底,特斯拉将其高速公路和城市驾驶 “堆栈 ”统一为一个用于 FSD 的端到端神经网络,这是一个里程碑。根据特斯拉人工智能总监的说法,最新的 FSD 软件(v12.5.x)是在数百万视频剪辑训练的神经网络上运行的,取代了之前管理驾驶逻辑的 30 多万行显式 C++ 代码。[8]

图7:特斯拉 FSDv12.5版本升级说明(图片来自特斯拉APP推送)
这种端到端模式现在可在一个人工智能系统下处理高速公路并线、城市街道导航,甚至是停车场导航。早期的用户报告指出,采用这种网络驱动方法后,高速公路上的控制更像人一样流畅。特斯拉的进步证明了在生产环境中大规模端到端学习的可行性--实际上,汽车的整个驾驶策略都是从数据中学习而来,而不是设计出来的。公司的纯视觉战略(使用 8 个摄像头,不使用激光雷达)得益于这些大型神经网络,它们可以推断深度和占用空间。展望未来,特斯拉的赌注是,数据量和神经网络的扩展将继续消除罕见的故障案例,最终超越人类驾驶的安全性。他们的方法引发了争论,但不可否认的是,它推动了整个行业向完全神经驾驶解决方案迈进。
以人工智能硬件著称的英伟达公司也在推进端到端驾驶算法,通常将学习与工程洞察力相结合。2023 年,英伟达研究人员为自动驾驶提出了树状结构策略规划 (TPP) 和可变 TPP (DTPP)。TPP 将连续驾驶问题转换为离散的马尔可夫决策过程,方法是扩展一棵包含可能轨迹和场景演变的树,然后利用基于规则的约束条件选择最优路径。DTPP 在此基础上增加了一个可微调的联合训练框架,可同时完善小车的轨迹预测和成本评估,从而实现端到端学习最佳轨迹的实时性能。这些技术将基于搜索的经典规划与现代深度学习相结合,在确保满足可行性和安全性约束的同时,还能从数据中学习。[9]
2024 年,英伟达公司凭借新框架 Hydra-MDP 在 CVPR 2024 E2E 驾驶挑战赛中获得第一名。Hydra-MDP 是一种端到端多模态规划器,它采用了一种多教师知识提炼方法:它训练一个学生神经网络来模仿人类驾驶员和一个基于规则的规划器作为教师。通过从基于规则的规划器中提炼知识,该模型学会了遵守交通规则和维护安全,解决了纯粹模仿学习的一些局限性(否则会忽略罕见但关键的安全操作)。Hydra-MDP 的网络架构具有多头解码器,可输出针对不同标准(舒适度、进度等)优化的各种轨迹候选方案,从而提高了在不同驾驶条件下的鲁棒性。[10]

图8:Hydra-MDP模型架构 [10]
值得注意的是,英伟达利用预先训练的基础模型和大规模训练来实现 Hydra-MDP,利用大量数据和计算来扩展模型的功能。该规划器在 nuPlan 基准测试中的表现超过了最先进的竞争对手,并赢得了挑战赛的创新奖。英伟达的工作强调了一条关键的行业路线:将基于规则的方法与神经方法相结合,以获得两者的最佳效果。它还体现了利用强大的计算能力和大型模型来推动端到端驾驶实现真实世界的可靠性。目前,许多自动驾驶汽车平台都使用了英伟达的 DRIVE Orin 或类似的 SoC,英伟达已经证明,即使是计算量很大的端到端模型(如 Hydra-MDP)也可以进行优化,以便在汽车兼容的硬件上实时运行。[11]
近年来,中国自动驾驶企业也积极研究并采用端到端深度学习和大模型。例如,Momenta 在 2024 年宣布推出首款量产的 “智能驾驶大模型”。这是一个集感知和规划于一体的单一深度学习模型,形成了一个面向消费级汽车的完全端到端驾驶系统。Momenta 的端到端模型旨在处理复杂的城市场景和长尾拐角案例:通过利用庞大的训练数据集,它可以预测周围车辆和行人的意图,执行流畅的并线和变道,甚至执行棘手的任务,如导航动态交叉路口或在夜间狭小区域停车。该公司报告称,该系统已通过与原始设备制造商的合作部署在量产车上,并显著减少了驾驶员在城市驾驶中的干预。[12]

图9:Momenta端到端自动驾驶模型架构 [12]
除了算法上的进步,Momenta 还实现了一项技术壮举,即在不依赖高清地图的情况下,在车载单个英伟达 Orin 芯片上运行端到端城市驾驶系统。momenta.ai这种 “无地图 ”导航类似于特斯拉的愿景--它利用实时感知(可能还有在线学习的地图)在任何地方行驶,这对于在缺乏详细地图的地区实现可扩展性至关重要。[12]
这表明,中国的自动驾驶汽车行业在很大程度上领先全球趋势:接受端到端学习、参与国际基准测试、量产部署大模型。随着这些公司不断完善其大型车型生产线,我们可以期待自动驾驶系统在应对中国城市交通复杂性方面的快速改进,这反过来又会推动全球先进水平的提高。重要的是,承诺将这些人工智能驱动的系统集成到量产车中,这表明端到端方法得到了商业验证,而在几年前,这种方法似乎还只是纯学术性的。
04
总结展望
综上,近年来端到端自动驾驶的技术路线路线可以总结为以下几种:
• 以视觉为中心的无图方法: 依靠丰富的传感器感知(摄像头、雷达等)来实时内化驾驶环境,而不是依赖外部地图。特斯拉和 Momenta 的早期端到端自动驾驶方案就是这种方法的典范,它们利用占用网络和实时局部地图,将信息反馈给规控网络。这种方法大大提高了可扩展性(人类可以在任何地方驾驶),但要求在所有条件下都具有强大的感知能力。
• 多任务集成与模块化训练: 新一轮研究(UniAD、EMMA 等)不再训练单独的模块,而是训练一个网络来联合执行多个任务(识别、预测、规划)。端到端网络对比多阶段网络可以减少模块间的累计误差,鼓励网络寻找全局最优解(因为所有子任务都是为了最终目标而优化)。然而,这需要精心的架构设计(确保某项任务不会主导或削弱其他任务)和海量数据来覆盖各种场景。
• 基础模型(foundation model)的使用: 引入大模型——无论是拥有数十亿参数的视觉转换器,还是集成到环路中的语言模型——都会改变游戏规则。这些模型将世界知识和推理引入汽车。例如,基于 LLM 的规划器可以利用从互联网规模的数据中学到的模式,“想象 ”交通代理可能会做什么。大模型还能实现新的功能,如自然语言解释(提高透明度)和更轻松地集成新的数据模式(如将交通标志读作文本)。在此过程中,我们需要权衡计算成本和对驾驶专用海量训练数据集的需求。近年来,大模型和AI智能体发展使得基础模型能够进一步针对驾驶任务进行融合和应用,并研究如何提高其效率(以便它们能在车上实时运行)和可靠性。如果这些挑战能够得到解决,基于基础模型的驾驶堆栈就能显著提高自动驾驶对未知情况的泛化能力,而这正是实现L4 级以上自动驾驶的关键障碍。
• 混合与安全学习: 在技术发展过程中,一个重要的主题是通过将学习与经过验证的规则相结合或针对人类数据进行优化,确保安全和类似人类的行为。相关技术包括将基于 IRL 的奖励调整等技术,或用于长视野的简单模型预测控制等技术作为端到端系统的护栏。通过结合深度学习和安全机制,许多团队取得了更好的成果。
总之,端到端自动驾驶技术的蓬勃发展为下一代自动驾驶汽车奠定了坚实的基础。该领域已从概念性演示发展到在商用车辆中部署落地,并在与传统的自动驾驶系统的竞争中获胜。行业创新(如特斯拉的统一 FSD 堆栈和 Momenta 的量产大模型)表明,端到端方法可以大规模满足现实世界的需求。学术上的突破,尤其是在统一框架和引入大模型方面的突破,为进一步提高能力和可靠性提供了发展方向。这些进步正在将自动驾驶技术推向新的高度,使自动驾驶更接近于像人类一样安全、自然地驾驶车辆,但却拥有超人的注意力和精确度。未来几年,随着数据的不断积累和人工智能模型的日益强大,端到端自动驾驶技术将改变交通方式,使交通比以往任何时候都更安全、更高效、更便捷。大数据、大模型和领域知识的巧妙整合将决定自动驾驶的未来,弥补从高级驾驶辅助系统到完全自动驾驶系统之间的差距。
编辑推荐
最新资讯
-
总投资30亿!奇瑞再建汽车新项目!
2025-03-31 14:59
-
价超700亿元,西门子闪电完成史上第二大收
2025-03-31 14:59
-
总投资5亿元!又一研发制造总部项目落地嘉
2025-03-31 12:51
-
中国汽研正式获批信息安全、软件升级CMA资
2025-03-31 11:38
-
重型车EDR认证知多少
2025-03-31 11:37