首页 > 汽车技术 > 正文

整车智能大模型应用研究探析

2024-05-28 16:40:31·  来源:汽车未来科技Lab  
 

“十四五”期间,国家出台了针对人工智能的未来发展相关指导方案和激励政策,涵盖“新型基础设施”建设、人工智能标准化与法规以及AI安全体系建设等。近几年,智能汽车行业目前正处于快速发展阶段,预计到2025年产业规模将突破5000亿元。智能座舱、智能驾驶、智能底盘已经发展到了技术的高速“涌现”期,同时也是瓶颈期,有望通过整车智能维度打通三域的感知、硬件、软件、执行隔离,实现全维度融合智能决策,在有限的物理成本下构建最大的最大功能收益。


图片


1. 价值与趋势


1.1 大模型是AI重要的技术发展方向


AI成为车辆各域智能化功能实现飞跃的核心动力,大模型的引入为AI提供了泛智能的通用工具,显著提高了智能深度,从用户感知维度有了质的飞跃,实现了从“伪智能” 到“真智能” 的发展,达到了化繁为简、无感交互、善解人意的用户体验,也是实现产品科技赋能的低成本、高收益突破点。根据对各大主流汽车企业和新势力的调研分析,前瞻领域重点方向包括:


多模感知与功能融合

高自由度的智能控车

高效准确的类人交互


图片


1.1 大模型已经成为人工智能的主流趋势


现在,我们进入了人工智能时代,从过去多个算法、多个任务、很多模型,走向相对统一的大算法、多模态,自训练、自监督和预训练的大模型,大模型让汽车对于人和环境的理解更加全面和准确,对于场景的解析和任务功能的构建更加完整和高效。大模型在全过程的能力和优势在于:


语义和意图解析

环境变量考虑

基于可调度的功能智能组合

功能过程中基于人的反馈微调


图片


1. 应用策略


1.2 全局感知是整车智能实现的基础


大模型的优势在于多模感知和协同决策。基于用户的自然语言转化成prompt输入,结合车辆交通环境、舱内环境、驾乘人员状态、车辆动态等多维度,实现功能自动化、程度自适应,给出当前最优功能调度。全局感知包括了车辆智驾、底盘域的多类传感器,各种域的传感器共同协同大模型判断当前场景的状态,应该以什么功能或者性能唤起对应的功能,准确合理的解决用户的需求。


智驾域:前视摄像头、侧方摄像头、环视摄像头、后摄像头、Radar、Lidar;


底盘域:加速度传感器、速度传感器、转向角传感器、IMU、位置传感器、踏板传感器


驾舱类:舱内外温度传感器、空气质量传感器、DMS、OMS


图片


1.3 大小混合模型解决全场景问题


模型越大对物理世界的描述就越准确,所以大模型可以云端部署,通过V2X实现车端互联;小模型车端部署,实现无网、弱信号的功能冗余。在技术维度,小模型可以帮助大模型快速学习,大模型的能力可以传给小模型,从而实现两者联动和互助,协同进化。


图片


1.4 端云融合解决算力协同问题


大模型对于算力的消耗较大,对于一部分算力储备不足的车辆采用端云结合的方式能够有效实现功能的梯度化与用户体验的优化。单车小模型保证了基础功能的实现(基本智能),云端大模型实现了高维理解和执行(高级智能),在网联通讯好的情况下通过端云连接能够实现秘书级的全局功能交互,同时保证不消耗车辆算力。基于云端部署的大模型通过知识蒸馏转化成保留核心功能的小模型,通过OTA的方式更新迭代车辆单车小模型,实现单车体验的可升级。


梯度化高效算力分配、降低单车成本

协同机制保证基础体验和高级体验

多用户访问的大模型能迅速获取知识实现微调

小模型OTA实现了单车功能的可升级


图片


2. 交互和智驾的全新体验


2.1 基于多模态实现功能交互,面向整车功能的端到端智能


大模型的应用使得自然语音交互不仅能更好的拆解用户意图,还能准确实现功能调度,提高了用户对于车内功能使用的可用性与易用性。交互最难的地方有两点:一是对用户场景的感知和理解,二是该主动推送和组合什么功能满足实时性需求。大模型对于这两点恰恰是强项,通过车内外多模感知的信息采集,实现全维度的场景综合理解,构建基于当前状态下的最大概率的功能需求预测和量化设置。


过去功能



2.2 智能驾驶逐步开始试探性应用,有望解决复杂场景感知决策


智能驾驶对于大模型的应用相对谨慎,但是大模型对于自动驾驶的潜力巨大。对于城市交互、户外环境的复杂感知环境的理解和判断有助于大大提示智驾系统的认知能力和综合决策能力,优化长尾。


(1)更好的环境理解:大模型能够准确识别车辆周围的物体,如车辆、行人、道路标志等,并自动生成语义信息,帮助自动驾驶系统更好地理解复杂的城市交通环境。尤其是复杂的城市道路场景中,传统的CNN、LSTM等算法无法非常好的理解交通参与体的意图和行为,大模型的可以通过全场景要素综合理解场景,基于经验库,提高预测的可能性和准确性。



(2)长尾场景和进化:基于人工代码的规控模块,无法考虑到驾驶场景中所有的corner case,且难以做到车辆动作的“拟人”决策和驾驶。对于城市中的复杂场景,和层出不穷的新场景,其应对能力是一个很大的考验,需要工程师不停的去优化、迭代算法。尤其是遇到未学习过的场景,系统会表现得不够智能或无法应对,从而出现不好的处理策略。对于预测方面,环境交通参与体的行为具有很高的随机性和无逻辑性,在概率估计和配置中,难以用现有的算法模型实现准确的预测,所以需要极为灵活的实时应对策略,这对于专家模型来说代码量理论上是极大的。比如典型的“cut in”加塞场景,传统智驾需要对车道预插入车辆的横摆角进行实时检测,结合其位置和速度预测其加塞行为,指标单一,而且是纯表象直推策略。端到端是通过对场景的理解进行判断,比如环境车辆动态、车道线、交通灯、转向灯灯,通过多维度的元素,甚至是人类没有意识到的要素进行综合分析,判断意图,所以其理解的天花板更高。


图片

2.3 整车智能维度将拔高多个功能的智能化水平


(1)驾驶安全性:通过大模型分析驾驶行为和行驶环境,可以实时预警潜在的安全风险,如疲劳驾驶、车道偏离等。同时,大模型还能对车辆状态进行实时监控和预测性维护,提前发现潜在故障,确保行车安全。对于人-车-云多模驾驶能够强化安全性,实现不同主体驾驶能力的多方位感知、评估和预测,实现全工况安全驾驶。


(2)网联与通讯:大模型还能助力车联网服务的发展,通过实时数据处理和分析,提供实时交通信息、最优路线规划等服务。这方面也促进了V2X的方案落地,对于端云融合的实时安全性,超视距信息的可靠性等都有较大的提高。此外,大模型可以帮助车辆更好地与其他设备和服务连接,实现智能家居控制、远程车辆监控等功能,实现生态智能。


(3)个性化与定制化:车载信息娱乐系统将更加智能化。系统不仅能提供传统的音乐、视频播放功能,还能根据用户的兴趣和历史行为推荐个性化内容,甚至能与用户进行深入的对话和互动,极大地丰富了车内娱乐体验。


(4)客户服务领域:如通过智能客服机器人提供在线咨询服务,解答用户的各种疑问,提高服务效率和用户满意度。包括:车辆功能介绍与使用、车辆故障咨询、车辆功能障碍提示分析与维修推荐、紧急救援。


(5)能源管理的优化:对于电动车而言,大模型可以通过分析驾驶模式和能耗数据,优化能源使用效率,提供更加精准的续航预测和充电建议,帮助用户更好地管理车辆能源,比如考虑温度、天气、行驶道路的海报等因素,使能耗预估根据准确可靠。另一方面,也可以更加合理的规划行程中的充电。


4. 优劣势分析


4.1 系统设计难度低,硬件成本有望降低


从算法架构设计的角度,其具有高度的整合度和一体化,省去了多个模块的独立架构设计和算法开发,降低代码量和运行所调度的模块数量。另一方面,由于模型直接从原始数据中学习,而不需要依赖于人工设计的特征或规则,所以删去了枯燥的标注工作。最重要的还有一点就是省去了后期无穷尽的规则补充和场景补充,减少了人工维护和升级的成本。


4.2 有望实现真正意义上的类人交互


传统的交互基本是采用专家模型+人工代码实现的基础智能体验,面向真正灵活的“智能体”或者“秘书级”的交互体验,目前大模型是最好的技术策略。由于其对语义和场景的理解要远好于当前的传统AI交互功能,所以对于座舱的体验和面向下一代人车关系至关重要,在足够大数据量后有望能成为秘书级别的交互能力,包括:


基于舱内外环境和人员的多模态感知;

场景复杂工况的综合理解和预测;

多变量因素综合分析下的最佳决策。


4.2 功能达到高度智能化需要较大的训练资源


缺点也是显而易见的,端到端架构将所有模块串在一起统一训练,更利于追求“全局最优解”,但数据的针对性更弱、模型训练的信号更弱,意味着提升性能所需的数据量和算力规模更大。从下边图可以看到,端到端的优势在数据量达到一定程度后性能显著提高,但是缺点是数据量较小时候性能上升缓慢,远低于解耦的传统基于专家模型的策略。


图片

图片来源:2023年CVPR


5. 总结


综上所述,大模型在汽车的应用具有跨时代的意义,也是通过海量数据的训练使得功能形成了真正意义上具有综合分析能力的智能体。无论是智能驾驶还是智能交互,其都能通过擅长的多模态感知、综合分析、科学决策实现接近人脑思考方式的功能执行链,满足多变的场景的无数的需求。

分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号