首页 > 汽车技术 > 正文

鱼眼相机在自动驾驶环境感知的应用和挑战

2025-01-05 12:46:55·  来源:智驾社  作者:小明师兄  
 
(上图)以大角度入射到针孔相机上的光线在超过 60 度时无法被有效成像。由于折射作用,添加鱼眼镜头可将视场角大幅增加到 190 度。(下图)光线在水面的折射会导致地平线被压缩到一个更小的视场范围内。等立体角模型。这些模型在制图学领域(例如 [5] 以及许多其他文献)早已为人所知。

A. 应用
鱼眼相机提供的视场角比标准相机宽得多,通常具有 180 度甚至更大的视场角。这带来了诸多优势,尤其是可以使用更少的相机来实现全方位覆盖。鱼眼相机首次成功的商业应用是在摄影领域,特别是在娱乐行业,鱼眼镜头效果成为了一种风格元素。沃克斯(Vox)的一个视频 [6] 很好地概述了其使用历史。第二个成功应用的领域是视频监控,在现代监控系统中常常能看到半球形镜头表面 [7]。近来,广角镜头相机常用于虚拟现实头戴设备 [8]。它们也常用于水下机器人 [9] 以及空中机器人 [10]。汽车领域是鱼眼相机的重要应用领域之一,在该领域需要更先进的视觉感知能力。1956 年,通用汽车的别克 “百夫长” 概念车型就配备了首个广角后视相机和一台电视显示屏。2018 年,美国强制要求配备后视鱼眼相机以减少倒车时的事故 [11]。2008 年,宝马为停车视野配置了环视相机 [12]。环视相机已成为许多车辆常用的功能配置。随后,它们被用于诸如交叉交通警报 [13]、物体检测 [14] 以及自动泊车 [15] 等计算机视觉应用中。图 1(上图)展示了环视系统中相机的位置以及示例图像。图 1(下图)展示了近场区域,它构成了车辆周边 360 度感知的主要传感器。图中较小的方框内还展示了通过拼接四个相机画面为驾驶员提供的环视可视化效果。

图片

图 3. 标准边界框对于鱼眼图像来说并非良好的物体表示方式。(a)边界框内的红色像素显示出大片不包含物体的区域。定向框(b)和曲线边界框(c)是更好的表示方式 [14]。

然而,鱼眼相机存在一些挑战。最明显的是它们存在强烈的径向畸变,若要校正这种畸变则会存在一些弊端,包括视场角减小以及周边出现重采样畸变伪影 [16]。由于空间变化的畸变,物体的外观变化更大,对于近处的物体尤其如此。这增加了卷积神经网络(CNN)的学习复杂度,因为卷积神经网络将平移不变性作为一种归纳偏置,并且由于模型必须学习物体所有畸变版本的外观,还增加了样本复杂度。此外,常用的利用边界框进行物体检测的应用变得更加复杂,因为边界框对于鱼眼畸变物体来说并非最佳适配方式,如图 3 所示。在 [14] 中探讨了使用更复杂的表示方式(而非矩形框),例如利用鱼眼相机已知径向畸变的曲线边界框。鱼眼感知是一项具有挑战性的任务,尽管其应用广泛,但相较于针孔相机,对它的探索相对较少。

对于没有明显鱼眼畸变的相机而言,与之相关的一种非常常见的几何模型是针孔模型。人们可能首先会考虑光线与距离投影中心某一固定距离的单一平面的相交情况。此类相机因镜头产生的所有畸变模型,其设计初衷就是将平面上的交点位置从投影中心沿径向进行偏移。在某种程度上,由于缺乏统一的几何模型,鱼眼算法的开发变得复杂起来。许多模型使用不同的特性来描述鱼眼投影。本文的目的之一就是研究常见的模型,并证明其中一些模型彼此之间高度相关。有几个模型可以被视为通用透视映射或椭球通用透视映射的特殊情况,这两种映射在其他科学领域已经为人所知数十年了 [17]。我们将表明所呈现的部分模型甚至是对现有模型的重新推导。因此,我们尝试梳理众多已提出的模型,并将它们分为几个类别来考虑。例如,我们可以考虑一类基于图像的模型,在这类模型中,鱼眼投影被视作与针孔投影的偏差来进行度量,例如 [18] 和 [19]。或者,我们也可以考虑一种在投影中心对光线投影角度进行操作的模型(例如 [2]、[20])。还有一些模型提出利用在不同表面上的一系列投影来对鱼眼畸变进行建模,例如 [21]、[22] 和 [23],我们可以将这类模型称为球面模型。

B. 与其他传感器的关系自动泊车系统通常是利用鱼眼相机和声呐来设计的 [15]。声呐通常用于车辆的前后部,它在准确检测近场障碍物方面非常可靠 [24]。然而,其探测范围通常局限于大约 5 米左右。此外,其所提供的信息非常稀疏,无法获取关于场景更丰富的信息。通常,一种经典的后期融合方法会将鱼眼相机和声呐的感知输出进行结合 [15]、[25]。近来,用于城市驾驶应用、能提供 360 度覆盖的短程雷达(SRR)阵列正被重新用于诸如泊车等近场感知应用中。它们比声呐的密度大得多,探测范围可达 30 米。然而,它们无法覆盖整个近场,存在一些盲区。此外,雷达的局限性还在于它无法检测道路标线,并且在物体分类方面性能有限 [26]。在 [27] 中更详细地讨论了利用短程雷达进行停车位检测的内容。鱼眼相机与短程雷达的融合通常是在经典的动态占据栅格融合框架下进行的 [28]。基于卷积神经网络的融合方法也正在兴起 [29]。激光雷达是一种探测范围超过 200 米的远场传感器,因此它通常不会与近场鱼眼相机相结合。瓦尔加等人 [30] 曾尝试将鱼眼相机和激光雷达相结合以提供统一的 360 度环境模型,但在近场存在盲区。激光雷达在物体分类方面的性能极其有限 [26]。总而言之,其他近场传感器(如雷达和声呐)只能获取场景的有限信息,因此它们无法独立运行来执行近场感知任务。

本文旨在进行广泛的概述和综述,以补充我们之前的工作 [31],之前的工作相对更侧重于我们具体的环视感知架构及实现的狭义讨论。我们列举了一些与本文相关的其他综述性论文。在 [15] 中,针对自动泊车这一特定应用场景的计算机视觉进行了简要综述。在 [12] 中,提供了关于环视监测的早期综述,但未讨论感知任务。最后,[32] 对视觉任务进行了全面综述,但并非专门针对汽车环视系统。

本文的结构如下。在第二节中,我们将讨论一些常用的模型,并对这些方法进行分类,确立它们之间的等效关系和各自的特点。在第三节中,我们将介绍由四个鱼眼相机组成的近场环视系统的汽车配置情况,并讨论诸如校准、校正以及几何基元等基本构造。第四节将详细综述基于环视相机的视觉感知任务。第五节将讨论该领域有待探索的未来研究方向。第六节给出总结性的评论。

二、鱼眼相机模型

在本节中,我们将对几种比较流行的鱼眼相机模型进行综述。目的是使用统一的符号来提供一份可能的模型的详尽列表。对于开发人员来说,这可被视为一种工具,用以指导针对给定应用选择合适的模型。人们可以尝试使用更简单、更具针对性的模型,并且根据具体应用情况,在校准后某一给定相机的误差仍然较高时,将开发扩展到更通用的模型之一。

A.符号和术语

矩阵用A∈Rm×n表示。将使用普通向量v∈Rn的通常表示法,用n-元组表示。具体来说,r3中的点记为X =(X,Y,Z)T,图像点I2集合中的一个点记为u =(u,v)T。单位球由S2 = {s∈R3 | ⅡsⅡ = 1}定义,单位球上的点用3个向量表示,即s =(x,y,z)T。

我们可以定义一个从C3⊆R3到图像的映射为

图片

其中C3表示定义投影π的点集。i2⊆r2表示C3投影后的图像。θ(通常以弧度表示)表示成像点的场角(相对于z轴的角度),θmax表示模型的最大场角。

π的真正逆自然是不可能的。然而,我们可以定义一个非投影函数映射从图像域到单位中心投影的球

图片

在某些情况下,解析的非投影π−1(u)不存在或不具有奇点。图4展示了图像点和单位球体之间的关系。

我们还使用Ⅱu Ⅱ = Q(θ)来表示投影函数的径向形式。也就是说,这是一个将视场角映射到图像平面上的径向距离(从失真中心开始)的函数。径向非投影函数记为θ = Q−1(ⅡuⅡ)。径向到入射角的非投影是一个真实的逆,不像未投影到图像球体。偶尔,我们会需要参考两个图像点,一个扭曲的点和一个未扭曲的点。在这种情况下,我们将使用下标d和u来区分(例如,ud和uu)。图像上映射将图像从其扭曲点径扭曲到图像上的未扭曲点(即从ⅡudⅡ到ⅡuuⅡ)。我们将这个映射表示为ⅡuuⅡ = τ(ⅡudⅡ),以及它的逆ⅡudⅡ = τ−1(ⅡuuⅡ)。

在讨论下面的模型时,我们使用下标来表示每个不同模型的参数和函数。具体地说,我们使用下标p表示针孔模型,e表示等距,s表示立体图,o表示正交图,eo用于扩展正字法,div表示除法,fov表示视场,ucm用于统一相机模型,ds用于双球。

图片

图4。鱼眼像点u和它在单位球面上的等价点之间的关系,s与X位于同一射线上。

B. 针孔照相机型号

针孔摄像机模型是在计算机视觉和机器人技术的许多领域中使用的标准投影功能,当研究仅限于考虑标准的视场摄像机时。针孔模型由

图片

或者,如果我们把它看作是一个径向函数

图片

其中,θ是投影射线的视场角。请注意,参数f有时被称为焦距。

未投影函数为

图片

针孔模型定义为点集C3 = {X∈R3 | Z > 0}。这些点映射到整个图像平面,即I 2 = R2和θmax = π/2。然而,在实践中,即使考虑到径向畸变,针孔模型也很少用于具有场角θ>60◦的点。

C. 经典几何模型

我们将本节中讨论的模型称为经典模型,因为它们已经被研究了至少60年的[4]。

1)等距投影:在等距鱼眼模型中,投影半径Qe(θ)通过等距参数f的简单缩放与场角θ相关(见图5a)。而这也是:

图片

未投影函数为

图片

等距投影对于点C3 = R3 \(0,0,0)T、I 2 = {u∈R2 | Ⅱu Ⅱ≤f π }和θmax = π是有效的。

2)立体投影:与等距模型一样,在立体投影中,X到投影球面的投影中心为C(图5b)。因此,该立体投影被描述为

图片

我们以后将需要的非投影函数是

图片

分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026917号-25