基于结构化的Informer模型的自动驾驶轨迹预测

2024-10-09 08:06:42·  来源:同济智能汽车研究所  
 
网络的输入是来自几辆车的轨迹的组合。然而,它缺乏车辆之间相对位置的任何指示,使得它无法被Informer网络学习。文献[30]中,空间嵌入主要考虑TVs与SVs(AV)之间的相对位置。因此,为了使网络能够充分理解车辆之间的相对位置关联,引入空间嵌入来生成车辆之间的相对位置特征。与时间特征相似,这些特征被集成到编码器的输入序列和解码器的真实序列中。

图片

a)空间嵌入结构; b)空间编码结果 

图 5 时间嵌入特征 

如图5a所示,在笛卡尔坐标中以TV为原点,以原点为起点指向各个SV (AV), SV (AV)相对于TV的位置用矢量表示。在每个时刻,所有车辆都需要以以下方式在空间上嵌入

图片

其中为嵌入的空间特征向量。表示SV (AV)标签,取的值;为各SV在车辆结构中的标准位置,其水平坐标和垂直坐标、垂直坐标设计为、、、,、,。对于每一时刻,所有车辆的通过连接在一起。

图片

是在单个时间步长对所有车辆的空间特征进行拼接向量,然后将该向量沿时间方向平铺,得到最终的空间特征矩阵。图5b为空间特征矩阵的处理过程。将图像的水平方向划分为5个不同的区域,代表5辆车坐标的嵌入结果。垂直方向上的数据分布是将拼接向量沿时间方向平铺的结果。 

3)Informer-Encoder:该网络中的编码器接收经过车辆状态关注层和嵌入层的车辆历史轨迹序列。通过分析输入序列中节点之间的相互关系,编码器可以提取特征并生成特征映射.如图3所示,特征映射通过层层从下往上计算:

图片

图片

其中,所有为前馈层(全连接层)的权值;为前馈层的激活函数;下面分别介绍、、、和。 

式(16)显示了嵌入层的计算过程,其中输入序列的时空嵌入特征通过加法组合到序列中。为了匹配两个嵌入特征的维数范围,在输入序列上加入一个全连通层,将其维数扩展到与嵌入特征相同。因此,融合序列保留了原始序列的信息,同时也强调了其时空特征,促进了网络识别和利用输入序列节点之间关联的能力。 

式(17)表示结构多头ProbSparse自注意层,包括ProbSparse自注意机制、残差连接、层归一化 [31]。是结构化Informer中的多头ProbSparse自关注块,它不仅在时间和空间上模拟了输入序列的交互特征,而且与LSTF中的正则Transformer相比,降低了计算复杂度。由于ProbSparse自关注机制只计算输入序列中节点之间的连接,而不涉及与ground truth序列的关系,因此称为“自关注”。关于模块结构的进一步细节见II-C节。残差连接是连接“输入”和“输出”的加性连接,改善了梯度分散问题,使网络收敛速度更快[32]。对分层网络的输出进行层归一化,以提高网络的泛化性能。 

式(18)为前馈层,与规范变压器相同。它使用激活函数进行两次线性投影,然后进行残差连接和层归一化。前馈层用于改善模型的非线性。 

编解码器的层堆叠导致内存占用高达[29],在LSTF中占用了大量的空间。为了解决这个问题,结构化Informer模型采用了简单(19)所描述的注意力蒸馏操作。如图6所示,在时间维度(核宽= 3)上进行一维卷积,并伴有激活函数[33]。表示步幅为2的最大池化层,在堆叠一层编码器后,对进行下采样操作至其长度的一半,如图3中的金字塔所示。这种下采样操作将整体空间复杂度降低到,其中是一个很小的常数。由于多头ProbSparse自关注层计算出的特征映射存在冗余,因此在不改变整体特征分布的情况下,蒸馏操作可以提取出优势特征并在下一层生成重点特征映射。这种方法最终实现了高效的内存使用。

图片

图 6 注意蒸馏过程 

式(20)和式(21)是式(17)和式(18)的网络结构的复制,通过对网络层的不断提炼和叠加,可以使网络更深,处理更复杂的问题。在本文中,在编码器层之外已经充分提取了输入序列的特征,因此无需在编码器中构建多层。如图3所示,编码器只堆叠了两层。

4)Informer-Decoder:本文框架中的decoder以目标序列作为输入,将目标序列作为ground truth,并作为生成预测轨迹的参考。为了方便动态解码,使用了一个起始标记,这在自然语言处理中被证明是有效的[34]。但是,我们没有使用专用标志作为开始标记,而是选择输入序列的切片部分作为标记。具体来说,基于5s的历史轨迹来预测5s的未来轨迹,我们将已知的3s到5s的轨迹作为标记,与5s的目标轨迹一起馈送给解码器:

图片

其中是历史轨迹的最后3秒作为标记,是目标轨迹。基于串接输入,Inform -decoder可以通过一步过程预测输出轨迹,而不是在常规Transformer中耗时的动态解码过程。确定输入后,对解码器进行如下处理:

图片

其中所有都是前馈层(全连接层)的权值。编码器和解码器中的前馈层具有相似的结构。除了简式(24)中的ProbSparse自注意块外,解码器还具有多头注意块(即简式(25)中的),其输入部分来自编码器中的特征映射,部分来自ProbSparse自注意块。通过对地面真实轨迹与特征映射之间的关系进行建模,多头关注层提高了预测轨迹的精度。第II-C节有更详细的介绍。注意蒸馏操作仅在多头注意层之后执行(即,简式(27))。像编码器堆栈一样,简式(28)到(30)是前一层的复制和堆叠。最后,通过简式(31)中的全连通块生成预测轨迹。

C.注意层

Transformer构建了以注意力为核心的整个编解码模型,解决了长序列问题,完全摒弃了RNNs。这个特性也被结构化的Informer继承了。首先,结构化的Informer模型下的解码器的多头注意机制mha(·)延续了Transformer中的多头注意机制。但是,与Transformer中的自注意机制不同,structural Informer中编码器和解码器的ProbSparse自注意机制通过突出输入序列的重要特征来简化了注意的计算过程,从而在不影响LSTF预测精度的情况下提高了计算效率。下面将分别讨论这两种机制。

1)多头注意层:与规范Transformer一样,结构Informer中多头注意层的输入首先通过线性投影线性变换为查询向量、键向量和值向量。通过给分配权重来计算输出,分配的权重通过与对应的相互作用得到,加权后的描述了输入序列中每个节点之间的关注程度。这种注意力计算也被称为尺度点积注意力[29]。因此,多头注意层使用函数:

图片

其中由线性投影得到;, , ;是的输入矩阵;是线性投影的可训练权值;下标表示第个注意头。注意需要以不同的线性投影权值计算次,通常称为多头注意。这些注意通过连接起来。注意,这种传统的多头注意机制仅用于计算编码器-解码器交互特征,如图7所示。来自解码器的输入序列用于计算,而来自编码器的特征映射用于计算和,从而产生包含编码器和解码器特征的多头关注值。

图片

图 7 多头注意力计算过程 

2)多头ProbSparse自关注层:ProbSparse自关注机制只计算编码器和解码器自身输入序列节点之间的连接。以编码器为例,假设 ,,其中是的长度,是的长度,是向量的维数,。在传统的自注意计算过程中,,需要进行点积计算,如简式(32)所示,这需要LSTF中的内存消耗。为了改善这一缺点,本文采用了多头ProbSparse自关注层。首先,在简式(32)中,的输出可以被视为具有、的概率分布,并且简式(31)被重写为

图片

分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号