首页 > 汽车技术 > 正文

广义焦损失:学习用于密集物体检测的高质量分布式边界框

2021-05-13 00:04:41·  来源:同济智能汽车研究所  
 
编者按:感知系统作为自动驾驶汽车的上游环节,扮演着非常重要的作用。现在传统的检测器采用回归框的形式给出物体位姿的预测结果,而在复杂场景下,物体的定位出
编者按:感知系统作为自动驾驶汽车的上游环节,扮演着非常重要的作用。现在传统的检测器采用回归框的形式给出物体位姿的预测结果,而在复杂场景下,物体的定位出现很大的不确定性和随意性,使得这样的回归框不能准确地反应物体的位姿。该文章为了解决这个问题,提出了一种新的基于任意分布的检测框并推导其损失函数。


本文译自:
《Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection》
文章来源:
Computer Vision and Pattern Recognition (cs.CV) 2020
作者:
Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen
原文链接:
https://arxiv.org/pdf/2006.04388

摘要:一阶段物体检测对于包围框的质量的表示往往是直接预测框的质量,然后再和类别置信度结合起来使用。这篇文章深入研究了物体检测3个最基础的要素:质量的预测,类别和定位。发现了2个问题(1)质量预测在训练和推理中的不一致性。(2)当在复杂场景的情况下,物体的定位往往会出现不确定性和随意性,而物体位置的狄拉克分布对于表示这种不确定性和随意性不合适。为了解决这两个问题,这篇文章中对这三个要素设计了一种新的表示,将质量的预测放到类别预测当中去,这样就得到一个物体的定位质量和类别概率的联合表示,并可以使用一个向量来表示包围框的任意的分布。使用这种表示的时候,用到的标签是连续的,这样的话,Focal Loss就不适用了,于是,我们提出了Generalized Focal Loss,将Focal Loss扩展到了连续的场景中。

关键词:类别不平衡,不确定性,深度学习

1  介绍

近年来,密集检测器逐渐成为了目标检测的主流方法,而对边界框表示及其定位质量估计的关注引起了令人鼓舞的进步。具体而言,边界框表示被建模为简单的狄拉克增量分布[10,18,32,26,31],在过去的几年中广泛使用。正如在FCOS [26]中流行的那样,当将质量估计值与分类可信度结合在一起(通常是相乘)时,预测附加的定位质量(例如,IoU分数[29]或中心度分数[26])会带来检测准确性的持续改进。推理过程中非最大抑制(NMS)的排名过程得分[12、11、26、29、35]。尽管取得了成功,但我们仍会在现有实践中观察到以下问题:训练和推理之间的定位质量估计和分类得分用法不一致:(1)在最近的密集探测器中,通常独立地训练定位质量估计和分类得分,但综合利用( [26,29](图1(a))。(2)目前仅对阳性样本进行定位质量估计的监督[12、11、26、29、35],这是不可靠的,因为阴性可能会获得无法控制的更高质量预测的机会(图2(a)) )。这两个因素导致训练和测试之间存在差距,并且可能会降低检测性能,例如,在NMS期间,具有随机高质量分数的阴性实例可能会在具有较低质量预测的阳性实例之前排在前面。

边界框的不灵活表示:广泛使用的边界框表示可以看作是目标框坐标的Dirac delta分布[7、23、8、1、18、26、13、31]。但是,它没有考虑数据集中的歧义和不确定性(请参见图3中图形的边界不清楚)。尽管最近有一些著作[10,4]将盒子建模为高斯分布,但要捕获包围盒位置的真实分布还是太简单了。实际上,实际分布可以更加随意和灵活[10],而不必像高斯函数那样对称。

广义焦损失:学习用于密集物体检测的高质量分布式边界框
图1:现有的单独表示与本文提出的联合表示的分类和定位质量估计之间的比较。(a):在训练和测试过程中单独使用质量分支(即IoU或中心得分)[12、26、29、35、31]。(b):我们对分类和定位质量的联合表示使训练和推理之间具有高度一致性。

为了解决上述问题,我们为边界框及其定位质量设计了新的表示形式。对于定位质量表示,我们建议将其与分类分数合并为一个统一的表示形式:分类向量,其中其在地面真实类别索引中的值指的是其相应的定位质量(通常是预测框与预测框之间的IoU分数)本文中相应的地面真值框)。通过这种方式,我们将分类分数和IoU分数统一为一个联合变量(称为“分类-IoU联合表示”),可以以端到端的方式对其进行训练,而在推理过程中可以直接使用(图7)。1(b))。结果,它消除了训练测试的不一致(图1(b)),并使定位质量和分类之间的关联最强(图2(b))。此外,将对负片进行0质量得分的监督,从而使总体质量预测变得更加可靠。对于密集的对象检测器而言,这特别有利,因为它们对整个图像中定期采样的所有候选进行排名。对于边界框表示,我们建议通过直接学习离散空间在其连续空间上的离散概率分布来表示框位置的任意分布(在本文中称为“一般分布”),而无需引入任何其他更强的先验(例如,高斯[10] ,4])。因此,我们可以获得更可靠和准确的边界框估计,同时了解它们的各种基础分布(请参见图3和补充材料中的预测分布)。

广义焦损失:学习用于密集物体检测的高质量分布式边界框1
图2:当前使用IoU分支的密集检测器的IoU预测不可靠。(a):基于图1(a)中优化的IoU分支模型,我们展示了一些具有极高预测质量得分(例如IoU得分> 0.9)的背景补丁(A和B)。(b)中的散点图表示具有其预期得分的随机采样实例,其中的蓝点清楚地说明了单独表示的预测分类得分和预测IoU得分之间的弱相关性。红色圆圈中的部分包含许多可能的底片,且具有较大的定位质量预测,这可能潜在地排在真底片的前面,从而损害性能。相反,我们的联合代表制(绿点)迫使它们相等,从而避免了此类风险。

然后,改进的表示形式对优化提出了挑战。传统上,对于密集探测器,分类分支使用焦点损失[18](FL)进行优化。通过重塑标准交叉熵损失,FL可以成功处理类不平衡问题。但是,对于建议的分类-IoU联合表示,除了仍然存在不平衡风险外,我们还面临着连续IoU标签(0 1)作为监督的新问题,因为原始FL仅支持离散f1;当前为0g类别标签。我们通过从f1扩展FL成功解决了这个问题。0g离散版本到其连续变体,称为广义焦损(GFL)。与FL有所不同,GFL考虑了一个非常普遍的情况,其中全局优化的解决方案能够针对任何期望的连续值,而不是离散值。在本文中,更具体地讲,GFL可以专门用于质量焦点损失(QFL)和分布焦点损失(DFL),分别用于优化改进的两种表示形式:QFL专注于稀疏的困难示例集,并同时产生其连续的0 1相应类别的质量评估;DFL使网络迅速专注于学习在任意灵活分布下目标边界框连续位置周围的值的概率。我们展示了GFL的三个优点:(1)当一阶段检测器通过附加的质量估算来促进训练和测试之间的差距时,它可以简化,联合和有效地表示分类和定位质量;(2)很好地模拟了边界框的灵活底层分布,从而提供了更多信息和准确的框位置;(3)可以不断提高一级检测器的性能,而不会引起额外的开销。在COCO测试开发中,GFL凭借ResNet-101骨干网达到了45.0%的AP,超过了最先进的SAPD(43.5%)和ATSS(43.6%)。我们的最佳模型可以在单个2080Ti GPU上以10 FPS的速度实现48.2%的单模型单比例AP。

广义焦损失:学习用于密集物体检测的高质量分布式边界框2
图3:由于遮挡,阴影,模糊等原因,许多对象的边界不够清晰,因此地面真实标签(白框)有时不可信,并且Dirac delta分布仅限于指示此类问题。取而代之的是,所提议的习知的边界框一般分布表示形式可以通过其形状反映基础信息,其中扁平分布表示边界不清晰和模棱两可(请参阅红色圆圈),而尖锐的代表清晰的情况。我们的模型预测的框标记为绿色。

2  相关工作

定位质量的表征。像Fitness NMS [27],IoU-Net [12],MS R-CNN [11],FCOS [26]和IoU-aware [29]之类的现有实践利用一个单独的分支以IoU或IoU的形式执行定位质量估算中心得分。如第二节所述。如图1所示,这种单独的表述导致训练和测试之间的不一致以及不可靠的质量预测。代替引入额外的分支,PISA [2]和IoU-balance [28]根据它们的定位质量在分类损失中分配不同的权重,旨在增强分类得分和定位精度之间的相关性。但是,权重策略具有隐含的和有限的收益,因为它不会更改分类的损失目标的最佳值。

边界框的表示。狄拉克三角分布[7、23、8、1、18、26、13、31]控制着过去几年中边界框的表示。最近,采用高斯假设[10,4]通过引入预测方差来学习不确定性。不幸的是,现有的表示过于僵化或过于简化,无法反映真实数据中复杂的基础分布。在本文中,我们进一步放宽了假设,并直接了解边界框更任意,更灵活的常规分布,同时提供了更多信息和准确性。

3  方法

在本节中,我们首先回顾用于学习一阶段检测器密集分类分数的原始Focal Loss [18] (FL)。接下来,我们详细介绍了改进的定位质量估计表示和边界框,分别通过提出的质量焦损失(QFL)和分布焦损失(DFL)成功优化了这两种表示。最后,我们将QFL和DFL的公式概括为统一的观点,称为广义焦点损失(GFL),作为FL的灵活扩展,以促进将来的进一步推广和一般理解。焦损(FL)。最初的FL[18]被提出来解决一阶段物体检测的情况,在这种情况下,训练期间前景和背景类别之间经常存在极端的不平衡。FL的典型形式如下(为简单起见,我们忽略了原始论文[18]中的t):

广义焦损失:学习用于密集物体检测的高质量分布式边界框17

质量焦点损失(QFL)。针对上述训练阶段和测试阶段不一致的问题,我们提出了一种本地化质量的联合表示。,借据的分数)和分类评分(简称“classification-IoU”),其监督软化的标准在一个炎热的类别标签,导致可能浮动目标y∈[0,1]上的相应类别(参见图4中的分类分支)。具体来说,y = 0表示负样本质量分数为0,和0 < y≤1代表积极与目标样本借据分数y。注意,本地化质量标签y遵循传统的定义在[29日12]:在训练过程中,预测的边界框和相应的ground-truth - ture边界框之间的IoU得分,动态值为0 ~ 1。继[18,26]之后,我们采用sigmoid算子σ(·)的多重二进制分类来实现多类。为简单起见,sigmoid的输出标记为σ。

由于所提出的分类-IoU联合表示需要对整个图像进行密集的监督,并且仍然存在类别不平衡问题,因此必须继承FL的思想。然而,FL的当前形式仅支持{1,0}离散标签,但我们的新标签包含小数。因此,我们建议对FL的两个部分进行扩展,以使联合表示情况下的训练成功:(1)交叉熵部分−log(pt)扩展为完整版本−(1−y) log(1−σ) + y log(σ) ;(2)比例因子部分(1−pt)γ 推广为估计σ与其连续标号y之间的绝对距离,即。−σ|β (β≥0),这里|·|保证非负性。随后,我们将上述两个扩展部分结合起来,形成完整的损失目标,称为质量焦点损失(Quality Focal loss, QFL):

广义焦损失:学习用于密集物体检测的高质量分布式边界框15
广义焦损失:学习用于密集物体检测的高质量分布式边界框3
图4:比较了传统方法和我们提出的GFL在稠密探测器头部的应用。GFL包括QFL和DFL。QFL有效地学习了分类得分和定位质量估计的联合表示。DFL将边界框的位置建模为一般分布,同时迫使网络快速专注于学习接近目标坐标值的概率。

分布焦损失(DFL)。在[26,31]之后,我们采用从位置到边界框四边的相对偏移量作为回归目标(参见图4中的回归分支)。边界盒回归的传统操作将回归后的标签y建模为Dirac-delta分布。根据第一部分的分析,我们不采用Dirac delta[23,8,1,26,31]或Gaussian[4,10]假设,而是直接学习基本的一般分布P(x),而不引入任何其他先验。

广义焦损失:学习用于密集物体检测的高质量分布式边界框4

为了与卷积神经网络保持一致,我们通过把区间\left[y_0,y_n\right]离散化变为{{y}_0,y_1,\ldots,y_n}把连续积分用离散的方式表达。因此,给我们一个离散的概率分布\sum_{i=0}^{n}P\left(y_i\right)=1,则估计的回归值\hat{y}可以被表示为:

广义焦损失:学习用于密集物体检测的高质量分布式边界框5

结果,通过由n + 1个单元组成的softmax层可以容易地实现Px,为简单起见,将P_i表示为S_i。请注意,可以使用传统的损失目标(如SmoothL1 [7],IoU损失[27]或GIoU损失[24])以端到端的方式训练^ y。但是,如图5(b)所示,存在P(x)的值的无限组合,可以使最终积分结果为y,这可能会降低学习效率。与(1)和(2)直观地比较,分布(3)是紧凑的,并且在边界框估计上趋于更加自信和精确,这促使我们通过显式激励Px的高概率来优化Px的形状。接近目标y的值。此外,通常情况下,最合适的基础位置(如果存在)不会远离粗略标签。因此,我们引入了分布焦点损失(DFL),通过显着增大yi和yi + 1(最接近2的y,yi,yi+1)的概率,迫使网络迅速重视标签y附近的值。由于边界框的学习仅针对没有类别不平衡问题风险的正样本,因此我们仅将QFL中完整的交叉熵部分应用于DFL的定义:

广义焦损失:学习用于密集物体检测的高质量分布式边界框6

直观地来看,DFL旨在提高目标y附近值的概率。DFL的全局最小解能够保证回归估计值\hat{y}无限接近于对应的标签。

广义焦损失:学习用于密集物体检测的高质量分布式边界框16

GFL的性质。显然,原始FL[18]以及拟议的QFL和DFL都是GFL的特殊情况(有关详细信息,请参见补充材料)。请注意,GFL可以应用于任何一级检测器。修改后的探测器在两个方面与原始探测器有所不同。首先,在推论过程中,我们直接将分类得分(带有质量估计的联合表示)作为NMS得分,而无需将任何单独的质量预测(如果存在)相乘(例如,像FCOS [26]和ATSS [31]中的中心性)。其次,用于预测边界框每个位置的回归分支的最后一层现在具有n + 1个输出,而不是1个输出,这带来的额外计算成本可忽略不计,如后面的表3所示。

用GFL训练密集检测器。我们讲训练损失定义为L:

广义焦损失:学习用于密集物体检测的高质量分布式边界框7

通常情况下,L_B表示GIoU损失,如[26,31]。N_{pos}表示阳性样本数。\lambda_0 (通常默认为2,[3])和\lambda_1(实际上是\frac{1}{4},在四个方向上的平均)是L_Q,L_D的平衡权重。在金字塔特征映射[17]上的所有位置z上计算总和。按照官方规范[3,26,31,15]的惯例,我们在训练过程中也利用质量分数来加权LB 和LD 。

广义焦损失:学习用于密集物体检测的高质量分布式边界框8
图5:基于ATSS [31],Dirac delta(a),Gaussian(b)与我们建议的General(c)分布之间的定性比较,用于基于COCO minival的边界框回归。白框表示地面标签,预测的标签为绿。

广义焦损失:学习用于密集物体检测的高质量分布式边界框9
表2:关于DFL的研究(骨干网络为ResNet50),所有试验都可以 mmdetection上复现。

4  方法

我们的实验是在COCO数据集[19]上进行的,其中使用trainval35k(115K图像)进行训练,而我们使用minival(5K图像)作为消融研究的验证。主要结果报告在test-dev(20K图像)上,可以从评估服务器获得。为了公平比较,所有结果均在mmdetection [3]下产生,其中采用了默认的超参数。除非另有说明,否则我们将基于ResNet-50 [9]主干采用1倍的学习进度(训练12代),而无需进行多级培训来进行以下研究。在补充材料中可以找到更多的训练/测试的详细信息。

我们首先研究了QFL的有效性(表1)。在表1(a)中,我们将提议的联合表示与单独或隐含的表示进行了比较。实验中还采用了两种表示定位质量的方法:IoU[29,12]和centerness[26,31]。一般来说,我们构建了4个使用单独或隐式表示的变体,如图6所示。根据研究结果,我们观察到,QFL优化的联合表示始终比所有对应的表示获得更好的性能,而IoU在衡量本地化质量(补充材料)时总是比中心度表现更好。表1(b)显示QFL也可以提高其他流行的单级检测器的性能,表1(c)显示\beta=2是QFL的最佳设置。我们通过抽样实例来说明联合表示的有效性,其预测分类和IoU分支模型和我们的IoU分数,如图2(b)所示。结果表明,基于QFL训练的联合表示方法具有更可靠的质量估计,有利于检测,并且根据其定义,分类与质量分数的相关性最强。事实上,在我们的联合表示中,预测的分类分数与估计的质量分数完全相等。

广义焦损失:学习用于密集物体检测的高质量分布式边界框10
图6:单模型单尺度速度(ms) vs coco数据集上先进方法的精度(AP)

其次,我们研究了DFL的有效性(表2)。为了快速选择合理的n值,我们首先在图5(c)中说明回归目标的分布。我们将在后面的实验中说明,ATSS推荐的值是14或16。在表2(a)中,我们比较了边界框回归的不同数据表示的有效性。我们发现,一般分布达到了优越的或至少可比的结果,而DFL可以进一步提高其性能。定性比较如图7所示。结果表明,与高斯分布和Dirac-delta分布相比,广义分布能提供更精确的包围框位置,特别是在有相当大遮挡的情况下(补充资料中有更多讨论)。基于GFL训练的改进ATSS,我们在表2(b)和(c)中通过固定一个和改变另一个来报告DFL中n和delta的影响。结果表明,n的选择不敏感,在实际应用中建议选择较小的n值(如1)。为了说明一般分布的效果,我们在图3中绘制了几个具有代表性的实例,其分布边界框在四个方向上,其中提出的分布表示可以通过其形状有效地反映边界框的不确定性(更多示例见补充资料)。

第三,我们使用ResNet-50骨干对ATSS进行消融研究,以显示QFL和DFL的相对贡献(表3)。FPS(每秒帧数)是在同一台计算机上使用单个GeForce RTX 2080Ti GPU在相同的mmdetection [3]框架下以1的批处理大小进行测量的。我们观察到DFL的改善与QFL是正交的,并且两者(即GFL)的联合使用可通过绝对的1%AP评分来改善强ATSS基线。此外,根据推断速度,GFL带来的额外开销微不足道,并且被认为是非常实用的。最后,我们在表4中将GFL(基于ATSS)与最新的COCO测试开发方法进行了比较。遵循先前的工作[18,26],多尺度训练策略和2倍的学习进度(24代训练)在培训期间被采用。为了公平地比较,我们报告了所有方法的单模型单尺度测试的结果,以及它们相应的推理速度(FPS)。具有ResNet-101 [9]的GFL在14.6 FPS时可达到45.0%的AP,这优于所有具有相同骨干的现有检测器,包括SAPD [33](43.5%)和ATSS [31](43.6%)。除此之外,可变卷积也能够持续地提升模型性能,使用GFL的ResNet101-DCN以10FPS的速度达到了最高精度48.2%。图8显示了速度-精度权衡的可视化结果,我们可以看到使用了GFL的模型速度和精度都较高。

广义焦损失:学习用于密集物体检测的高质量分布式边界框11
表3:各种先进检测网络在coco数据集上的比较。带*的FPS值来源于[33],其余的FPS值用一张GeForce RTX2080Ti GPU进行测试,批大小为1。R: ResNet. X: ResNeXt. HG: Hourglass. DCN: Deformable Convolutional Network.

5  总结

为了有效地学习密集目标探测器的限定边界框和分布边界框,我们提出了广义焦损(GFL)方法,该方法将原始焦损从离散公式推广到连续版本。GFL可以被特殊化为质量焦点损失(QFL)和分布焦点损失(DFL),其中QFL鼓励学习更好的分类和定位质量的联合表示,DFL通过将它们的位置建模为一般分布来提供更多信息和更精确的边界框估计。大量实验验证了GFL的有效性。我们希望GFL能成为领域内的一个简单而有效的基线。


参考文献
广义焦损失:学习用于密集物体检测的高质量分布式边界框12
广义焦损失:学习用于密集物体检测的高质量分布式边界框13
广义焦损失:学习用于密集物体检测的高质量分布式边界框14


分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026917号-25