交通信号灯场景下的非连续依赖轨迹预测
编者按:在进行车辆轨迹预测时,车辆之间的交互建模会直接影响到预测精度,在以往的大部分预测模型中都建立在车辆之间交互具有连续性的假设上。没有充分考虑由于不同的行为而引起的交互对象之间的交互变化。除此之外,由于交通标志和交通灯的限制,车辆在停止、直行、右转和左转的运动中通常也会表现出不连续性。本文中通过构建空间动态交互图、行为依赖图并引入交通信号灯信息对交互和运动的不连续依赖进行建模。
本文译自:
《D2-TPred: Discontinuous Dependency for Trajectory Prediction under Traffic Lights》
文章来源:
Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part VIII. Cham: Springer Nature Switzerland, 2022: 522-539.
作者:
Yuzhen Zhang, Wentong Wang, Weizhi Guo, Pei Lv, Mingliang Xu, Wei Chen, Dinesh Manocha
原文链接:
6596/1939/1/012011/metahttps://link.springer.com/chapter/10.1007/978-3-031-20074-8_30
代码链接:
https://github.com/VTP-TL/D2-TPred
摘要:当在复杂场景中进行导航时,深入了解代理之间的关系和运动行为对于实现高质量规划非常重要。我们提出了一种考虑交通灯的轨迹预测方法D2-TPred,它使用空间动态交互图(SDG)和行为依赖图(BDG)来处理时空空间中的不连续依赖问题。具体而言,SDG通过在每一帧中为不同的代理重建子图来捕获空间交互。BDG通过建模当前状态与先前行为之间的隐式依赖关系,特别是与加速、减速或转向相对应的不连续运动来推断运动趋势。此外,我们还提出了一个新的具有交通灯信息的车辆轨迹预测数据集,叫做VTP-TL。我们的实验结果表明,与其他轨迹预测算法相比,我们的模型在VTP-TL上的ADE和FDE分别提高了20.45%和20.78%以上。
关键词:动态交互图、行为依赖图、不连续依赖、红绿灯
1 引言
车辆或代理的交互关系和行为意图经常用于各种自动驾驶任务[4,27,32]。一个关键任务是预测每个车辆或道路代理的未来轨迹,用于执行安全导航或交通预测[1,40,6,48]。现有的轨迹预测方法主要是从空间交互和行为建模中提取时空信息。在空间交互方面,以往的大部分工作都是根据预定义的交互区域来确定对象之间的交互,例如整个场景[1,40,36,42,48],局部区域[2,12,6],以及对应视觉注意力的区域[19]。然而,这些方法没有充分考虑由于不同的行为而引起的邻居之间变化的交互和依赖性,如改变车道或转向,可能会导致新的成对交互。在行为依赖性方面,这些预测算法使用基于LSTM的方法[23,48]或基于图的方法[29,38]从先前状态获取相关信息。
在本文中,我们解决了交通信号灯或十字路口附近区域的轨迹预测问题。由于交通标志和交通灯的限制,红、绿、黄状态由离散指标标记,车辆在停止、直行、右转和左转的运动行为中通常不会表现出一阶连续性。相反,它们的轨迹受环境或其他代理的不连续影响的支配。例如,在图1的绿色框中,车辆、和之间的交互从时间到发生了变化。即使这些车辆位于由距离确定的相同交互区域内(绿色框),但是车辆之间的空间和行为交互已经发生很大变化,我们需要对此类变化进行建模。对于车辆来说,影响它当前状态最重要的因素是由于右转而导致的行为变化,而不是相邻时间戳的运动状态。我们将这种现象称为不连续依赖(D2),这使得精确的空间-时间特征提取极具挑战性。目前的轨迹预测方法没有充分考虑到这一特性,即交通代理的轨迹通常由于频繁的启动和停止而导致不是一阶连续的。
主要结果:为了模拟交通代理之间的不连续依赖关系,我们提出了一种新的轨迹预测方法(D2-TPred)。在我们的方法中,我们为一帧中的不同交通代理构建了一个空间动态交互图(SDG)。每个交通代理都被视为一个图节点,我们计算适当的边来模拟它与其他不断变化的相邻代理的交互,这些相邻代理由视觉范围、距离和车道索引以及它们的相对位置方面的不连续依赖关系确定。
此外,为每个代理计算行为依赖图(BDG),根据它们在先前时间中的行为对不连续性进行建模,而不仅仅是相邻的时间戳。具体来说,为了避免加速、减速或转弯方向等关键行为特征被遗忘门过滤,或者误差会在RNN网络的顺序预测中累积,将相邻帧之间依赖信息传递的方式替换为GAT(图形注意力网络)[31]。SDG和BDG被用作基于图形的轨迹预测网络的一部分。我们还提出了一个用于车辆轨迹预测的新数据集VTP-TL。我们的数据集由城市环境下的不同的交通场景组成,例如十字路口、丁字路口交叉路口和环岛,其中包含车辆轨迹的二维坐标和每个交通路口的1000多辆带注释的车辆。我们工作的贡献主要如下:
1、我们提出了一种新的轨迹预测方法D2-TPred,它建模了车辆轨迹中的各种不连续性。2、我们提出了两种类型的数据结构来提高基于图的网络的性能,以建模动态交互和车辆行为。SDG通过为每个帧中具有不断变化的邻车的代理重建适当的交互子图来对空间交互进行建模。BDG用于模拟当前状态对先前行为的动态变化的行为依赖性。SDG和BDG的使用在ADE和FDE中将预测精度提高了22.45%和29.39%。3、我们提出了一个新的数据集VTP-TL,他们是针对交通信号灯和路口附近的交通视频数据。其中包括对应于具有挑战性的城市场景的150分钟的30fps视频。该数据集是在交通路口上方70至120米处使用无人机捕获的。
2 相关工作
图神经网络:图神经网络(GNN)[58]可以对代理之间的交互进行建模。基于GNN的现有轨迹预测方法可以分为两类。第一种是基于无向图,它利用图结构显式地构建交互并为每对节点分配相同的权重,例如STUGCN[55]、SocialSTGCNN[29]。第二种是基于图注意力网络(GAT)[31],它在无向图中引入了一种注意力机制来计算交互代理的不对称影响权重。基于GAT的方法,例如Social-BiGAT[43]、STGAT[23]、EvolveGraph[24]和SGCN[38],可以灵活地模拟非对称交互以计算时空特征并提高预测精度。同时,EvolveGraph[24]和SGCN[38]引入图结构推理来生成动态和稀疏交互。与这些方法不同,我们直接将根据视觉范围、距离和交通规则确定的交互对象构造一个有向图,并使用GAT来表示代理之间的非对称交互。
图1 交通灯附近十字路口车辆间不连续相依关系的图解
社交互动模型:代理需要使用交互和相关信息来做出合理的决定,以避免潜在的碰撞。基于社会力的方法[13,33,49]使用不同类型的力来模拟加速和减速力。基于社交池的方法[2,12,1,40]尝试整合半径内邻车的运动信息。基于GNN的技术[42,43,24,29,41,23,46]使用图形结构来直接模拟代理之间的交互。这些方法假设代理与预定义或附近区域中的所有其他代理进行交互。他们没有考虑那些需要修剪的邻车,尤其是沿着相反的车道行驶的代理。
运动模型:运动模型作为轨迹预测模型的一部分用于推断运动信息。早期的研究主要基于线性模型、恒速模型或恒加速度模型来预测未来轨迹[52]。然而,这些简单的模型无法处理复杂的交通场景。此外,还提出了基于LSTM的方法[2,1,23,39]和基于图的方法[54,55,29,38]来对运动轨迹进行建模。其他技术考虑了驾驶员行为[7,3]。Giuliari等人[17]使用transformer网络进行精确的轨迹预测。在本文中,将时间序列中代理的状态视为节点来构建有向图,进一步实现不连续时间戳之间的直接建模,而不仅仅是相邻的时间戳。
3 D2-TPred
在本节中,我们提出了一种新的基于学习的轨迹预测算法,该算法建模了交通灯对运动行为的影响,其架构如图2所示。
图2 D2-TPred 模型的架构
3.1问题表述
给定每个场景中个代理的空间坐标和交通灯状态,我们的目标是预测这些代理在未来最可能的轨迹。在任何时间,第个智能体在时间的状态可以表示为,其中表示位置坐标,其他符号表示相应的交通灯信息,在3.3节中有更详细的描述。根据时间区间中所有智能体的输入,我们的方法可以预测它们在下一段时间内的位置。不同于地面真实轨迹,表示预测轨迹。
3.2时空依赖
空间动态交互图:与先前的方法[23,29]不同,我们重建子图以对每个帧中的所有交互进行建模。我们通过对图3中具有7辆车的场景来说明我们对不连续依赖建模的方法。与[19]类似,考虑到人类视觉系统的特点,车辆的可视区域被视为截锥体,并在道路和交叉路口之间设置不同的视觉范围。在时间,、和位于邻域的可视区域中。然而,因为在相反的车道上移动,的运动行为不受的影响。因此,我们构建对应于车辆、和之间交互的子图,以及车辆和的对应的子图。此外,对于没有相邻车辆的和,我们分别构建子图和。基于这些子图,更新这些车辆的中间状态。由于车辆之间的相互作用是动态变化的,车辆在时间不受车辆的影响。即使它们在由距离确定的相同交互区域内,车辆对车辆影响在相邻帧之间也不相同。以这种方式,我们重建相应的子图、来表示车辆之间的这些不同的交互。
图3 空间动态交互图(SDG)
考虑到代理之间交互的不对称性,我们在这些构建的有向图中使用自注意机制来模拟空间交互。对于时间的智能体,我们首先根据视觉范围、距离和车道索引以及相应的矩阵、和分别确定其交互对象。
其中填充0和1表示代理之间的邻接矩阵,我们进一步构建基于它的子图。然后我们通过整合来自交互对象的隐藏状态来计算空间状态。
其中是嵌入函数,是智能体在时间的状态向量。与方法[14]类似,表示代理在时间戳对的注意力系数,和是嵌入矩阵和LSTM单元权重。
图4 行为依赖图(BDG)
行为依赖图:为了避免在信息传递过程中关键行为特征可能被RNN网络的遗忘门过滤,我们使用GAT来模拟从先前行为到当前状态的不连续依赖性,而不仅仅是只使用相邻的时间戳内的信息。具体来说,对于给定的车辆,其由SDG更新的状态被视为节点。我们将时间序列中的不连续依赖建模为边,并构建有向图,其中行为信息沿着有向边传输。图4显示了给定代理的BDG的详细架构。
具体来说,对于智能体,我们使用相同颜色的有向线段构成展开的BDG,不同颜色代表不同时间实例的行为依赖图。BDG使用SDG生成的状态 。它的当前状态被更新并嵌入到下一个时间实例的行为依赖图中,其中节点之间的依赖权重是通过使用自注意力机制计算的。如图4的虚线框所示,代理在当前时刻的运动状态由之前在时间、、、、和的行为控制等,而下一个时间的运动状态由、、、、和控制。这样,代理的隐藏状态 在时间更新计算如下:
其中表示时间窗口长度。是单层前馈神经网络的权重向量。表示从到的先前帧中的具体时间实例。
3.3交通灯附近的轨迹预测
在本节中,我们提出了两种用于车辆轨迹预测的方案。第一种方案考虑了由交通灯状态交替引起的对车辆行为的不连续约束,其中交通灯被视为具有固定位置和交替状态的指示信号。第二种方案是针对没有红绿灯的场景设计的。
给定观测序列: ,其可以划分为车辆轨迹和相应的交通信号灯状态序列两部分。Fid、Aid、Lid分别是frame、vehicle以及车辆所在车道的索引。是交通灯索引。 描述车辆是否在相应红绿灯的影响范围内。表示车辆是否最接近影响区域内的停车线。表示一个代理的行为,例如左转、右转或直行。和分别描述了红绿灯的状态和持续时间。我们考虑到车辆轨迹是连续的,交通灯状态序列是周期性的和不连续的。因此,使用LSTM和MLP这两种不同的编码器来处理它们并分别计算相应的隐藏状态和。在SDG中,我们使用GAT来整合来自附近交互代理的影响特征,然后计算代理的更新状态。在行为依赖方面,我们首先将状态 (Eq.4)和交通灯状态连接起来作为输入,然后使用这些结果来构造BDG。基于BDG,我们可以针对交通信号灯对车辆运动行为的不连续约束进行建模,如图4所示。在此阶段,隐藏状态被计算为的加权和,其中依赖权重是通过自注意机制计算的。公式如下:
其中是串联操作。和是嵌入权重。为了增强行为特征并避免序列过程中被遗忘门过滤的特征损失,通过整合状态和原始状态来生成中间状态。预测的车辆位置由下式给出:
其中和分别是基于LSTM的解码器和相应的权重。表示线性层。我们的方法也是基于GAN的模型,将鉴别器集成到预测方法中,它利用LSTM和MLP分别对完整轨迹()和交通灯序列LS进行编码,然后将它们连接起来作为输入,判别器通过线性网络输出真/假概率。
对于每辆车,我们使用[1]中的多样性损失计算位移误差。该模型预测多个轨迹,并选择它们与ground-truth轨迹之间距离误差最小的轨迹作为模型输出。
4 实验结果
4.1量化评估
我们在交通数据Apolliscape、SDD、INTERACTION、Waymo和VTP-TL上进行了详细的定量评估,D2-TPred和其他轨迹预测方法的预测性能定量结果如表1和表2所示。
表1 交通数据集预测性能的量化结果
表2 VTP-TL数据集的定量结果
没有红绿灯的交通数据集:利用SDG和BDG提取时空特征,我们的方法在表1所示的数据集中取得了有竞争力的性能。具体来说,我们的方法的性能明显优于Apolloscape上的方法。在具有大量不同场景的SDD数据集中,我们得到了最小的ADE误差和第三的FDE的误差,以及INTER数据集下的最小FDE误差。此外,我们还通过8帧历史数据来预测接下来的12帧中的车辆轨迹,并在Waymo Open Motion数据集上实现了最佳性能。这些表明我们的模型可以有效地捕获复杂交通场景中动态变化的交互特征和行为依赖。
带交通灯的VTP-TL数据集:在本节中,我们将介绍D2TPred+TL,它将交通灯状态引入D2-TPred方法。在表2中,我们评估了我们的模型并和一些方法进行了比较,并且这些方法都针对交通信号灯进行了改进和了评估。实验结果表明,我们的方法在VTP-TL数据集上,ADE和FDE指标优于的所有其他方法。值得注意的是,与预测误差最低的STGAT相比,D2-TPred+TL的ADE和FDE指标分别降低了20.45%和20.78%。这说明我们可以有效地模拟交通灯对运动行为的约束。
4.2消融实验
我们进行了带有红绿灯的VTP-TL的消融研究。这不仅展示了每个组件的重要性,而且突出了对交通灯引起车辆运动行为不连续性进行建模的好处。
表3.VTP-TL数据集的消融结果
SDG和BDG的评估:为了显示SDG和BDG的有效性,我们在表3中比较了,和。中ADE分别降低13.93%和15.85%,FDE分别降低17.34%和22.46%。这直接说明SDG和BDG可以有效捕捉时空的不连续依赖性,进一步提高预测轨迹的准确性。
判别器的评估: 我们引入了一个判别器来改进预测轨迹。通过比较表3中的和,后者在ADE和FDE中的性能分别提高了9.26%和12.74%。此外,鉴别器有助于提高预测轨迹的准确性。
不同编码器的评估:由于交通灯状态的鲜明特征,我们使用MLP和LSTM对其进行编码。通过比较表3中的和,利用MLP捕获交通灯状态的特征可以在ADE和FDE上分别进一步提高5.56%和8.17%。这说明不连续的序列可能不适合由具有强上下文相关性的LSTM进行编码。
交通灯功能评估:对于交通灯,我们将methods+TL与相应的baseline方法进行比较。前者直接使用VTP-TL数据集,后者使用从VTP-TL数据集拆分出来的由、、、属性组成的数据集。如表2所示,它可以进一步将ADE和FDE的性能分别提高8.02%至24.87%和3.38%至30.29%。因此,我们可以清楚地验证红绿灯在城市交叉口轨迹预测中的必要性
4.3 定性评价
在图5中,前两列的图像显示了来自Argoverse和Apolloscape的定性结果。可以看出,我们的方法在没有红绿灯的情况下也可以在城市十字路口预测出可接受的未来路径。
在第三列中,我们展示了VTP-TL数据集的定性结果。对于第一行,道路上的当前交通灯状态为红色。我们只展示了五辆车的轨迹,其中车辆直行,在红灯下右转,在绿灯下直行,和不在红绿灯信号的影响范围内。对于,我们方法的预测轨迹最接近地面实况。虽然、、和的轨迹不受交通灯信号的影响,但我们的方法也可以预测可接受的轨迹。接下来的两个图像显示了丁字路口和环岛路口的预测轨迹,在交通灯状态从红色变为绿色的情况下,位于前者的车辆状态正在从停车变为行驶。这说明我们的模型可以灵活地响应周围代理和交通灯状态的动态变化。
图5 在交通数据集和VTP-TL数据集上的城市交叉口可视化结果。请注意,所比较的方法在不同的数据集中并不相同
5 结论
我们提出了D2-TPred,这是一种考虑交通信号灯的轨迹预测方法。该方法不仅可以通过为具有不断变化的交互对象(SDG)的所有代理重建子图来对动态交互进行建模,而且还可以通过建模先前实例中行为的直接影响来捕捉不连续的行为依赖性(BDG)。此外,还发布了用于车辆轨迹预测的交通信号灯VTP-TL数据集。基于此,我们描述了两种轨迹预测方案,并且与其他最先进的技术相比获得了有竞争力的性能。
参考文献
-
汽车测试网V课堂
-
微信公众号
-
汽车测试网手机站
编辑推荐
最新资讯
-
HEAD acoustics下线检测:最高级别的质量保
2024-11-15 17:09
-
新能源公司与哈尔滨理工大学联合研究中心揭
2024-11-15 17:07
-
标准研究 | 汽车也要保持“头脑清醒”?有
2024-11-15 17:05
-
基础模型在推进自动驾驶汽车中的前瞻性作用
2024-11-15 17:03
-
中国汽研智能驾驶自主可控检测装备首批联合
2024-11-15 17:01