混合视觉语言模型与传统自动驾驶系统的融合

2024-02-26 09:50:13·  来源:汽车测试网  
 

自动驾驶技术在近年来取得了长足的进步,然而,在城市环境中,其面临的挑战依然严峻。理解复杂而长尾的场景、挑战性的路况以及微妙的人类行为是自动驾驶系统必须克服的主要障碍之一。为了增强自动驾驶系统的场景理解和规划能力,一种新的方法:利用视觉语言模型(VLM)的自动驾驶系统,其中包括DriveVLM和其改进版DriveVLM Dual。


利用视觉语言模型(VLM)的自动驾驶系统是一种新兴的技术,旨在通过结合计算机视觉和自然语言处理的方法,提高自动驾驶系统对复杂场景的理解能力和决策能力。这种系统的核心思想是利用深度学习模型对驾驶场景进行感知,并通过自然语言处理技术将感知到的信息转化为语义化的描述,从而使得系统能够更好地理解场景并做出相应的规划决策。


具体来说,利用VLM的自动驾驶系统通常包括以下几个关键步骤:


图像感知:系统首先通过搭载摄像头等传感器设备来获取驾驶场景的图像信息。这些图像可能包含道路、车辆、行人、交通标志等各种元素。


特征提取:接下来,系统利用深度学习技术对获取的图像进行特征提取,将图像信息转化为高维的特征向量表示。这些特征向量包含了场景的丰富信息,如物体的位置、大小、形状等。


视觉语言模型(VLM)处理:得到图像的特征向量后,系统将这些特征向量输入到视觉语言模型(VLM)中进行处理。VLM是一种能够将图像与自然语言之间建立联系的深度学习模型,通常采用Transformer等结构。通过VLM,系统能够将图像信息转化为语义化的描述,描述场景中的物体、位置关系、动作等。


场景理解与规划:最后,系统利用VLM生成的语义化描述,结合实时感知到的驾驶场景信息,进行场景理解和规划。这包括对道路状况、车辆行驶状态、交通标志等进行分析,并做出相应的驾驶决策,如车辆行驶轨迹规划、速度控制、交通规则遵守等。


然而,DriveVLM也存在一些局限性,特别是在空间推理和计算效率方面的表现并不理想。


为了克服这些局限性,研究者提出了DriveVLM Dual,它是DriveVLM的改进版,将VLM与传统的自动驾驶流水线相结合。DriveVLM Dual不仅集成了VLM的优势,还融合了传统的3D感知和轨迹规划模块,从而实现了更强大的空间理解能力和实时推断速度。这一混合系统的出现,极大地提升了自动驾驶系统在复杂和不可预测的驾驶条件下的性能表现。


为了验证DriveVLM和DriveVLM Dual的效果,研究者进行了大量实验,使用了nuScenes数据集和SUP-AD数据集。实验结果表明,这两种系统在复杂和不可预测的驾驶条件下均超过了现有的方法。DriveVLM在场景理解和规划能力上表现出色,而DriveVLM Dual在空间推理和实时轨迹规划方面更具优势。


总的来说,DriveVLM和DriveVLM Dual代表了自动驾驶技术领域的最新进展,它们的出现为自动驾驶系统的发展带来了新的思路和方法。随着技术的不断进步和研究的深入,相信这些方法将进一步提升自动驾驶系统的性能,使其更好地适应各种复杂的驾驶场景。

分享到:
 
反对 0 举报 0 收藏 0 打赏 0
沪ICP备11026917号-25