Panoramic Imaging及其应用于场景理解的综述
arXiv论文“Review on Panoramic Imaging and Its Applications in Scene Understanding“,上传于2022年5月11日,综述的作者大多来自浙江大学。
随着高速通信和AI技术的快速发展,场景的感知不再局限于小视野(FoV)和低维度场景检测设备。全景成像(Panoramic Imaging)是下一代环境感知和测量的智能设备。然而,在满足大视野摄影成像需求的同时,全景成像设备被期望有高分辨率、无盲区、微型化和多维度智能感知等特性,并与AI方法相结合,更深入地理解360度真实周围环境。幸运的是,自由曲面(freeform surfaces)、薄板光学(thinplate optics)和元曲面(metasurfaces)的最新进展提供了解决环境感知问题的新方法,提供了超越传统光学成像的希望。
本文介绍全景成像系统的基本原理,以及各种全景成像系统的结构、特点和功能。然后,详细讨论自由曲面、薄板光学和元曲面在全景成像中的应用前景和设计潜力。另外,详细分析这些技术如何帮助提高全景成像系统的性能。进一步,详细分析全景成像在自动驾驶和机器人场景理解中的应用,包括全景语义图像分割、全景深度估计、全景视觉定位等。最后,展望全景成像的未来潜力和研究方向。
与传统的小视野光学系统相比,全景成像光学系统在视场、体量、功耗等方面具有突出的优势。就成像性能而言,全景成像在满足机器视觉等应用需求方面面临着几个挑战,包括视野、分辨率、盲区和图像质量。另一个迫切的需求是多维度智能感知,其中全景成像预计将与智能传感器相结合,记录、融合和感知有关周围环境的高维信息。此外,全景成像预计将朝着轻量化和小型化结构形式发展,在空间和重量限制更大的场景中应用。然而,上述要求通常需要解决不同的因素权衡问题,这使全景成像的设计具有挑战性。
在过去的十年中,全景成像概念得到重新审视,并迎来了新的热潮。自由曲面和元曲面等新兴技术极大地重塑了全景成像系统,为全景成像领域带来了光明。这些新兴光学技术的应用有力地推动了全景光学系统架构的性能改进。同时,多维全景成像系统的提出丰富了全景成像领域,在不同的应用领域发挥了更强大的作用。
如图所示是全景成像系统示意图:(a) 全景成像系统架构;(b) 多维度全景成像系统的分类方法。
对于全景成像系统,光学系统的性能参数尤为重要。
在光学仪器中,被测目标可以通过以镜头为顶点形成的最大范围两条边所夹角度,称为视野(FoV)。以最常见的鱼眼光学系统为例,其最大半视野是从中心光轴到可观测目标边缘的角度。如图所示:这里存在各种参数的折衷
FoV决定了光学仪器观察周围场景范围的能力。与其他常见成像光学系统相比,鱼眼系统全视场通常可以达到180度或更多。这种独特的成像特性可以一次记录有关周围环境的更多信息。而普通成像系统在全视野一次捕获的信息更少。因此,全景成像系统比传统光学系统具有更多的环境感知优势,已成为未来光学仪器的热门发展方向。
metaverse的概念将增强现实(AR)和虚拟现实(VR)显示领域带入了新一轮的发展,也导致了全景环境感知的兴起。
另一个重要参数是F-数,定义为光学系统的焦距与其孔直径的比率。F-数越小,送入光学系统的光越多,光圈孔径(aperture diaphragm)的尺寸越大。
小F-数光学系统也称为高速成像系统,通常具有大孔径和更大的光吞吐量,这可以提高快门速度。在昏暗的光线下,这种光学系统可以保持更多的光通量(light flux),对夜间或暗场拍摄很有好处。
在拍摄运动物体时,大光圈和小F-数光学系统有利于高速快门清晰地拍摄物体。小F-数光学系统具有大孔径和大景深。拍摄时,景深较小的光学系统会在散焦背景的同时突出目标。大型F-数光学系统具有较大的景深,能够同时在远距离和近距离清晰地成像大范围场景,但相对照度降低。
F-数是一个关键参数,F-数越小,透镜的应用范围越广。在设计成像系统时,小F-数设计更难设计,但有更高的图像质量。因此,全景系统的F-数通常设计为较小,以实现较大的光通量。
焦距也是全景成像系统设计中的一个关键参数。透镜设计通常遵循五种经典投影模型,即gnomonic projection模型、equidistant projection模型、equisolid angle projection模型、orthographic projection模型和stereographic projection模型。
equidistant projection模型通常用于大视野光学系统的设计,其表达为:
其中f是焦距,θ是半视野角,y是像高。当全景光学系统的FoV保持不变时,焦距越大,像高越大,系统的尺寸越大,匹配的传感器分辨率也越高。
为了便于表征和比较全景系统的紧凑性,更好的方法是使用全景系统的紧凑性比,作为体量紧凑性参数。
如下所示,全景系统紧凑性比,定义为全景系统的最大直径与传感器图像的直径大小之比:
其中Rcompact是紧凑性比,Dsensor是传感器上成像的最大直径,Dpanoramic是全景光学系统的最大横向直径。
光学系统的成像质量主要取决于像差(aberration)、调制传递函数(MTF)和相对照明度。光学系统的成像分辨率与波长和光圈孔径大小有关。具体来说,波长越短,光圈孔径越大,光学系统的分辨率越高。
极紫外光刻(Extreme ultraviolet lithography)光学系统是一种超高分辨率光学系统。
-
多摄像机拼接和单摄像机扫描
在全景光学系统的设计过程中,往往追求更大的视野。视场增大将给像差校正带来更大的困难。在全景光学系统开发之初,通常使用多摄像机拼接(stitching)或单摄像机扫描(scanning)技术。
单摄像机扫描要求高速度、高帧率和高精度,以保持扫描稳定性。然而,这种方法无法实时捕获周围环境。另一方面,多摄像机拼接技术需要依靠后处理算法拼接和校正,镜头标定和校正仍存在误差。多摄像头拼接方法通常会带来设备尺寸和功耗加大,还有不可避免的高价和高算力开销。
鱼眼光学系统的后续发展使用折射(refractive)光路进行单镜头大视野成像。通常在前方使用更多的负片透镜(negative lenses)来偏转大视野的光路方向,这样满足大视野像差校正的光路显得平滑。为了减少使用的透镜数、还有设计、加工和组装的难度,设计中经常使用高折射率材料。虽然高折射率材料折射光线的能力更强,但也往往更昂贵。
为了进一步缩小系统尺寸,出现了折反射(catadioptric )全景系统、超半球透镜、全景环形透镜等新的全景成像结构。这些新结构通常使用折射光路将大视野光线收集到中继(relay)透镜组中,然后执行像差校正。不同全景成像系统架构的参数比较如表所示。
为了提供对真实环境的高维度检测,红外、可见光和紫外线波长的全景成像系统被相继设计。多维全景感知将拓宽人类对真实环境的理解,加深对真实世界的理解和认识。同时,变焦全景光学系统可以在全景范围内的大FOV和小FOV之间切换,实现对关键感兴趣区域的详细检测。
为了获得更宽的观测视野,还有多通道全景(multi- channel panoramic)系统。这些成像系统通常具有较大的视野。与单通道全景相比,具有某些优势。拍摄弯曲反射(bending-reflection)全景图的光学系统通常有一个中心盲区。为了消除这个棘手污点,引入了二向色性薄膜(dichroic films )和偏振(polarization)技术。
传统的全景系统是球面设计。随着FoV的增加,校正光学像差变得更加困难,通常会使用更多透镜。这种设计也使装配更加困难,不可避免地带来尺寸和价格的增加。幸运的是,高精度加工技术使新光学曲面成为可能。自由曲面、薄板光学和元曲面技术为全景成像系统的小型化和成像高性能提供了强大的引擎。
如图是全景图像FoV拼接技术:(a) 单摄像机扫描拍摄;(b) 移动电话单相机拍摄大视野图像;(c) 手机生成的大视野图像;(d) 多摄像机拼接;(e) 六个可见光摄像头FoV拼接;(f) 六台环绕阵列可见光摄像机的成像结果。
-
鱼眼光学系统
与FoV拼接方法获取全景图像相比,单摄像机扫描方法具有系统结构简单、无需拼接、成本低和安装稳定等优点。最经典的方法是使用鱼眼光学系统,该系统的称呼是因为其最前面的透镜突出,其结构类似于鱼眼,如图所示:(a) 鱼眼模仿的鱼眼摄像头;(b) 注水针孔相机原理;(c) 瞳孔位于曲率中心的半球透镜原理;(d) 天空透镜原理;(e) 现代鱼眼镜头的原型;(f) 鱼眼镜头Entaniya M12-280拍摄的全景图像。
鱼眼光学系统的FoV通常超过180度, 是一种超广角光学系统。这种大视野成像光学系统通常由两三个负弯月面透镜(negative meniscus lenses)作为前光组成,将被摄目标的大视野压缩到常规透镜所需的视野,然后通过后续透镜组进行像差校正。
由于鱼眼光学系统的光路需要通过前端多个镜(mirror)组折叠,因此光学系统的畸变较大,F-θ畸变通常大于20%。宽视野镜头的畸变控制尤为重要。
此外,鱼眼光学系统的第一个透镜的直径通常比后校正透镜的直径大五倍。相对而言,由前后透镜组之间的大直径差导致鱼眼光学系统紧凑性较差。鱼眼系统的中心没有盲区,但边缘FoV失真会压缩图像。
因此,在设计之初,需要考虑系统结构的紧凑性、颜色校正和失真校正。对于超广角全景系统,每个FoV的离轴点(off-axis point)目标有两种像差:离轴点目标的孔径射线像差和主射线像差。
在鱼眼光学系统中,除了畸变校正外,场曲率(field curvature)的波像差(way aberration)矫正和各光学表面的色差校正也非常重要。
在图像采集方面,鱼眼图像可以通过精确的数字图像处理算法进行提取。用两个鱼眼镜头进行图像拼接可以获得更大的全景视野。通过棱镜折射光路,可以获得更紧凑的体量。在温度−40◦ ∼ + 60◦ 真空环境中,空间鱼眼系统仍然可以确保稳定的成像性能。光纤红外广角成像系统可以实时捕获宽视野和大景深的红外图像。
-
全景图成像
最近有一种新全景光学系统,称全景图成像(panomorph imaging),具有更高的传感器面积使用率和更多的感兴趣区域像素。如图所示:(a) 全景图成像的典型光路;(b) 鱼眼透镜的图像尺寸分布(左)和全景图成像系统的图像尺寸分布(右);(c) 两个全景图成像系统(左)及其图像结果(右);(d) 鱼眼镜头(左)和全景图镜头(中)拍摄的图像,使用全景图镜头提高分辨率(右)。
-
折反射全景系统
折反射全景系统主要由两部分组成,一部分是反射光学元件,另一部分是折射光学元件。反射元件通常是折反射系统前部元件的反射镜。
与鱼眼光学系统不同,折反射全景光学系统使用镜子反射周围360度光线进入后续透镜组,而鱼眼光学系统使用多个负弯月面透镜进行折射,再压缩进入中继透镜组的光线方向。折反射全景光学系统的折射元件是后续透镜组,用于校正成像的像差。反射镜位于光圈和后续透镜组的前面,可以是单透镜的形式,也可以是两个甚至多个透镜的形式。
此外,由于成像视野较大,这种全景光学系统的F-θ畸变通常大于20%。与鱼眼光学系统相比,它的前透镜数更少,并且聚焦于环视成像。由于折反射成像的特点,该光学系统将自身成像在图像的中心,也可以视为盲区或非感兴趣区域。由于特征点定位不准确,棋盘图像失真会影响全景相机标定的精度。与传统方法相比,迭代细化方法可以将特征点的重投影误差降低39%。
如图所示:(a) 折反射全景系统成像原理;(b) 单镜(mirror)折反射全景系统;(c)由单镜(mirror)折反射全景系统拍摄的图像;(d) 单镜(mirror)折反射全景系统光路图;(e) 双镜(mirror)同方向弯曲的红外折反射全景系统;(f) 双镜(mirror)反方向弯曲的红外折反射全景系统。
-
单中心全景镜头系统
复眼(Compound eye)是自然界节肢动物(arthropod)的典型特征。与单孔径视觉系统相比,复眼具有许多优异的成像特性,例如体积小、视野宽、运动感知能力强以及光敏感性。有设计一种单中心(monocentric)监控镜头光学系统。单中心系统的FoV为140度,焦距7.88mm,总长度14.47mm,F/1.5。
还有提出一种具有多孔径集成的单中心透镜。这种光学系统的特点是所有光学表面都是球面,并共享一个共同曲率中心。具有紧凑成像体的单中心透镜没有昏光或散光(astigmatic)像差。与商用F/4摄像机相比,F/1.35、3000万像素、126度光纤耦合单中心透镜成像原型,大大减小了宽视野成像系统的尺寸。图像处理方法可以显著提高光纤中继的原型图像质量。
有一种新的伽利略单中心多尺度(GMMS)和开普勒单中心多尺度(KMMS)分析模型,该模型比近轴(paraxial)形式更精确。该模型避免了对不同单中心透镜形式的费力分析,保留了单中心多尺度(MMS)系统的关键点。GMMS系统具有较好的像差性能。该研究为单中心透镜系统的进一步应用和发展提供了有益的参考。
如图所示:(a) 典型的天然昆虫复眼(蜻蜓);(b) CurvACE原型;(c) 带有光纤束的单中心透镜,用于图像中继到平面传感器;(d)F/1.35、3000万像素、126度 FoV光纤耦合单中心透镜成像原型与类似FoV的商用F/4摄像头尺寸比较;(e) 处理后的光纤中继的原型图像;(f) GMMS(顶部)系统和KMMS(底部)系统的光路图。
-
超半球镜头成像
普通全景镜头的FoV大于200度,为了实现超大视场成像,设计了一种超半球透镜。这个超广角系统的视野角是360度×260度。有一种特殊设计是,双焦(bifocal)超半球透镜。
如图所示:(a) 双焦超半球镜头;(b) 用双焦超半球镜头拍摄的图像;(c) 双通道超半球镜头系统的结构和双通道超半球镜头中物体的成像分布;(d) 超半球镜头原型(左上)、超半球镜头记录的原始图像(右上)和超半球镜头的展开图像(底部)。
-
全景环形镜头
大自然是人类的老师。在自然界中,扇贝(scallop)通常拥有一个由多达200只眼睛组成的视觉系统,通过贝壳上的缝隙观察周围环境。全景环形透镜的光路来自扇贝(pecten)眼睛的特殊结构。整个系统主要由三部分组成:全景环形透镜块、中继透镜组和传感器。根据平圆柱(flat cylinder)投影原理,系统可以形成360度具有半视野β的环形图像,因此称为全景环形透镜。由于小反射器的遮挡,FoV中心将形成半FoVα的盲区。
如图所示:(a) 200多只眼睛的扇贝;(b) 全景环形系统成像及组成;(c) 平圆柱投影原理;(d) 全景环形成像系统原型(左)、全景环形成像系统捕获的原始图(中)、全景环形成像系统捕原始图像的展开图(右)。
全景成像系统的新引擎介绍如下:
-
自由曲面
随着先进制造技术和测试技术的不断发展,自由曲面光学元件使紧凑和高成像质量的光学系统成为可能。与传统球面相比,自由曲面可以提供更多的自由度,显著改善成像系统的光学性能,并减小系统的尺寸。这项技术极大地促进了从科学到广泛领域的应用,如极紫外光刻(extreme ultraviolet lithography)和空间光学方面。自由曲面光学是一个结合了设计、制造、测试和装配的并行工程型过程。
传统的全景透镜设计采用球面透镜。为了提高光学设计师在设计全景系统时的自由度,旋转对称非球形表面(symmetric aspheric surfaces)的使用为全景成像系统提供一个新机会。由于非球面的多自由度设计参数,全景成像系统可以实现传统方法难以实现的系统参数、结构和功能。
众多提出的设计,比如奇数非球面、偶数非球面、Q型非球面、扩展多项式非球面、环形拼接非球面和卵形(ogive)非球面和偶数卵形(even Ogive)非球面,已成功应用于全景系统的设计。非对称自由曲面也使全景光学系统具有新的变焦功能,包括Alvarez曲面自由曲面和XY多项式非球面。
-
薄板光学
与传统的光学成像不同,计算成像技术可以根据成像原理,从信息获取、信息传输和信息转换的各个方向对光学仪器捕获的光学信息进行编码和解码。计算成像可以通过散射、偏振和仿生(bionic)技术获取和分析光场的多维信息,在实现大探测距离、高分辨率、高信噪比、多维信息、轻量、简单和便宜等方面具有许多优势。
几十年来,光学研究人员一直致力于设计大视野、轻重量的紧凑型光学系统。菲涅耳透镜(fresnel lens)在保持透镜曲率形状的同时,减小透镜厚度,并可作为传统连续表面透镜的轻型替代品。由于其能够减小光学系统的厚度,广泛应用于照明、太阳能聚光器和准直器等非成像领域。
当光学透镜表面的处理接近成像频带的光波长时,光透射将不再符合几何光学的三个透射定律(直传、折射和反射),并将发生衍射效应。此时,该光学元件被称为衍射(diffraction)光学元件。采用衍射元件设计的光学系统需要确保整个光学系统具有较高的衍射效率。
将计算成像技术与菲涅耳/衍射光学元件相结合,形成了薄板光学(thin plate optics)技术。使用衍射编码透镜,针对不同的光谱分布形成明显不同的点扩散函数,联合计算成像技术可以实现有效的相位差恢复和图像重建。借助计算成像技术,使用菲涅耳透镜或衍射光学元件的大视野轻型光学系统,可以实现接近传统复杂光学系统的成像质量,从而实现对大视野的简单系统感知。这种采用菲涅耳或折射-衍射混合和计算成像的下一代成像光学系统,可用于构建计算成像的未来,以实现薄轻全景成像应用。
-
元表面
目前,随着光学技术和微纳加工技术的飞速发展,光学系统的小型化已成为研究的热点。对于场景感知、可穿戴设备、医疗设备、航空摄影和其他领域,微型光学系统备受青睐。传统光学系统的小型化设计以高分辨率、高成像质量和可加工性相互制衡,这给设计带来了很大的挑战和加工难度。
作为一种新的微纳(micro-nano)表面技术,元表面(metasurface)显示出巨大的潜力,去克服传统光学透镜物理限制的能力。元表面是一种二维元材料(metamaterial)。元材料通常由亚波长金属或电介质单元组成,这些单元显示出与现有材料不同的电磁特性,如负折射、光学隐身(optical stealth)等。
传统光学透镜通过厚度变化积累光路,产生相位梯度,实现波阵面的调制。当光击中亚波长散射体时,其相位将发生突然变化,即不连续变化。将该散射体布置到表面中,然后精确控制每个单元的结构以控制光的相位,可以使光会聚到一个点。这叫做元透镜(metalens)。与传统光学透镜相比,元表面具有超薄的尺寸和体积。光束可以聚焦到衍射极限,并且具有超短焦距。
为了实现大视野,非彩色、宽带、以及元透镜的其他特性,研究人员对元透镜进行了一系列深入研究,下表显示了一些代表性的工作。
元透镜技术作为超薄光学元件,为全景系统提供了新的设计思路,小尺寸、高性能的商用全景成像系统将成为可能。
如图所示:(a) 紧凑、高性能的自由曲面光学系统;(b) 衍射编码透镜和计算成像技术使图像恢复成为可能;(c) 具有超宽视野(左)的单层平面元透镜,基于中间红外Huygens元表面(中)、衍射限制的聚焦和成像原理示例性设计侧视图,运行在180度FoV的元透镜样品和元原子(meta-atoms)的扫描电子显微镜图像(右)。
全景成像系统的应用方面。
如图所示全景场景分割用于语义环境理解:(a) 使用多个鱼眼摄像头进行环视图感知;(b) 全景环形语义分割,通过单全景摄像头实现对周围环境的无缝感知;(c) 基于针孔图像无监督域自适应全景语义分割;(d) 全景分割,通过密集的对比预训练,提供像素级语义和实例信息,实现整体环境理解。
如图所示用于几何环境理解的全景深度估计:(a) 单目360度深度估计监督方法示例,该方法双向融合等矩形(equirectangular)和立方体图(cube-map)投影表示;(b) 无监督方法的示例,该方法利用基于卷积神经网络的自动编码器、基于深度图像的渲染(DIBR)、极角度失真补偿层和空洞空间金字塔池的组合。
如图所示是全景视觉定位、视觉里程计和视觉SLAM:(a) 全景视觉定位方法的示例,其中全景图像被处理并馈送到NetVLAD网络以形成活跃深度的描述符,并且序列匹配被用于生成定位结果;(b) 具有专门设计的初始化、跟踪和深度滤波器(depth filter)模块的全景视觉里程计示例,用于处理快速运动和动态场景;(c) 全景视觉SLAM方法的示例,其中捕获的全向RGB图像用彩色编码的半致密深度信息覆盖,并重建3D深度图。
如图所示全景光流估计、目标检测、布局估计和显著性预测。(a) 为场景时域理解,360度真实世界环境视图的全景光流估计示例;(b) 用于识别周围目标和感兴趣位置的全景目标检测示例;(c) 用于室内场景理解的全景3D布局估计示例;(d) 360度内容中反映像素重要性的全景显著性预测示例。(注:漏了插图)
在场景理解领域,全景图像语义分割和全景深度估计受到了极大的关注,因为全景摄像头提供了超宽视野(FoV)以实现密集和全面的感知,整个360度可以获得像素级语义和几何信息。视觉定位、里程计和SLAM也从全景成像中受益匪浅,这有助于克服这些挑战。
-
汽车测试网V课堂
-
微信公众号
-
汽车测试网手机站
编辑推荐
最新资讯
-
大众汽车南京工厂或面临出售
2024-12-19 13:29
-
端到端专题:DDPG 基础算法与方法论介绍
2024-12-19 11:42
-
多模态大模型最新论文介绍
2024-12-19 11:42
-
建科股份收购苏州赛宝
2024-12-19 09:57
-
端云协同创变,中科创达与火山引擎共塑AI智
2024-12-19 09:56