2021年7月21日arXiv上传论文“Rethinking Trajectory Forecasting evaluation“,作者是来自NVIDIA Research(实际也是斯坦福大学的博士和教授)。
预测行为是自动驾驶的一个组成部分,尤其是在安全紧要的场景。目前轨迹预测只有少数基于准确性的评估指标,例如位移误差(average/ final displacement error,ADE/FDE)和对数似然(negative log-likelihood,NLL)。这些指标与任务无关,并且相同的预测可能会导致截然不同的结果,例如,下游的规划和决策任务。
该文较短,只是分析评估当前的轨迹预测指标,提出任务-觉察(task-aware)指标作为预测系统衡量性能的方法。设计了一个轨迹预测的评价示例,在现有轨迹预测度量中加入规划-觉察(planning- aware)。
总体而言,出现了两类度量:几何度量和概率度量。几何度量(例如 ADE 和 FDE)将单个预测轨迹与真值进行比较,而概率度量(例如,最小ADE/FDE、NLL、基于KDE的 NLL)将预测分布或轨迹集与真值比较,会考虑到其他信息如方差。
如图所示:(a) 基于准确度的指标广泛用于评估预测轨迹(红色)与真值(蓝色)的相似程度。(b) 驾驶员(灰色)在自动驾驶车辆(绿色)旁边右转。还显示了两个预测(绿色和紫色实线),它们具有相同的度量精度,因为它们与未来轨迹真值(蓝色实线)等距。(c) 虽然度量相等,但一个紫色预测会导致安全保护的机动(紫色虚线),而其他一个不影响自动驾驶车的运动规划(蓝色虚线)。
-
能够捕捉下游任务中出现的不对称。
-
任务觉察,方法不可知。
-
计算可行。
-
可解释。
该文提出一个规划-觉察的测度,满足以上因素的期望。该方法利用人类驾驶轨迹数据集学习规划成本函数,通过预测输出的敏感性决定哪些代理最能影响规划。然后,这些敏感性可用于现有指标加入任务觉察(例如,根据规划影响权衡预测的准确性)。
其中s是状态(position, velocity, acceleration)向量,u是行动向量,s^是预测向量,theta是特征的权重。
然后,利用连续逆最优控制(Continuous Inverse Optimal Control,CIOC)方法学习权重,这里假设专家驾驶的轨迹是局部最优的。计算梯度delta得到相对预测位置的灵敏度,计算基于准确度的planning-informed (PI)测度如下:
对于避撞(Collision-Avoidance)场景,损失函数包括四项: goal项 (自车和原点的距离平方),control项 (控制作用的幅度平方),和两个避撞项(分别是其他智体以当前位置为中心的RBF函数和以单步预测位置为中心的RBF函数)。
在相关的避撞健身中心环境中,收集 64 个预训练 GA3C-CADRL策略(论文“Collision avoidance in pedestrian-rich environments with deep reinforcement learning“)。下图(a)反映其中一个策略,一辆自车(橙色)机动到原点,同时避开其他智体(蓝色),较浅颜色代表出现较晚;重要的是,该方法能够以规划-觉察的方式区分度量相等的错误预测。
成本函数的权重从 CIOC(原论文“Continuous inverse optimal control with locally optimal examples“)推广获得。最后,自车对智体预测的规划敏感性做计算,采用标准的Automatic differentiation工具。
文章提到做一个实验,对于符合独轮车动力学模型的自车,假设其任务是从随机启动状态到达原点,同时避免与周围车辆发生碰撞。下图(b)和(c)是分析其在两个不同场景的表现性能:
-
对于迎面避撞的场景 (b) ,突然转入自车路线(紫色虚线)的预测,与转离(绿色虚线)预测相比,其规划敏感性要高得多;同样的位移误差(ADE = 0.075和FDE = 0.15),两个梯度幅度分别是0.90 (紫色) 和0.21 (绿色),但是piADE 和 piFDE指标,紫色预测比绿色预测高25%,其中f(a,g) = 1 + max(0,ga-gaGT), ga 和 gaGT = 0:57 分别是预测规划和未来真值规划的敏感度;
-
对于智体不太可能影响自车规划 (c)的场景 ,该方法在所有预测中产生小规划敏感性。
这是之前英伟达工作Planning KL Divergence,PKL(论文“Learning to evaluate perception models using planner-centric metrics“)的继续,细节请看https://nv-tlabs.github.io/detection-relevance/。
这项工作将任务-觉察纳入轨迹预测评估中。特别是,举例说明现有指标忽略了现实世界预测结果的不对称性,概述了任何任务-觉察指标应解决的四个关键考虑因素,并提供了一个概念验证(POC)框架和实例,说明一种任务觉察指标工作方式。
除了预测之外,对其他模块(例如,检测和跟踪)进行任务觉察评估是另一个方向,支持模块的协同设计,增强集成性能。