近日,中科院自动化研究所、西安交通大学人工智能与机器人研究所、清华大学等单位在智能车领域国际顶级期刊IEEE Transactions on Intelligent Vehicles杂志上联合发表了题为“Parallel Vision for Long-Tail Regularization: Initial Results from IVFC Autonomous Driving Testing”的研究文章。文中提出了用于分析和解决自动驾驶视觉感知中长尾问题的理论框架,并基于此构建了一个平行视觉系统,在中国智能汽车未来挑战赛(Intelligent Vehicle Future Challenge, IVFC)应用验证。
引用格式:J. Wang et al., "Parallel Vision for Long-Tail Regularization: Initial Results from IVFC Autonomous Driving Testing," in IEEE Transactions on Intelligent Vehicles, doi: 10.1109/TIV.2022.3145035.
-
提出了长尾常态化(Long-tail Regularization, LoTR)的理论框架,用于分析和解决视觉长尾问题。
-
基于 LoTR 理论构建了一个基于虚实互动和 ACP 闭环优化[1] [2] 的平行视觉系统(Parallel Vision Actualization System, PVAS)用于解决长尾问题。
-
将 LoTR 的理论分析方法和 PVAS 的实际系统结合起来应用于全球持续举办时间最长、无人驾驶赛事参赛队伍最多、影响范围最广的自动驾驶比赛 IVFC 中。
长尾是某些统计分布所具有特征的一种形象表示。在“长尾”分布中,低频事件的分布范围很广,其总的发生概率和高频事件相当。
在视觉问题中,从数据的角度考虑,常规场景出现的频率过高,而极端场景出现的频率非常低,很多现实世界的长尾场景只能在特定条件下获取,训练集多样性不足以表征现实世界的长尾分布;而从模型的角度考虑,许多视觉模型仅在常规场景中表现较好,对于突发的极端场景感知能力欠佳,模型具有不完备的问题。
解决长尾问题需要在考虑常规视觉问题的基础上,更全面地兼顾到长尾场景的影响,使视觉系统对存在长尾效应的复杂场景达到最大可能的有效智能感知。
传统的视觉研究在数据获取、模型学习与评估方面存在困难。
从实际场景中采集和标注大规模多样性的数据集,费时费力,手工标注也容易出错;另外,实际场景不可控、不可重复,无法将场景的每个组成因素(天气、光照等)分离出来,单独分析对视觉算法的影响。
由于数据获取的困难,使用规模和多样性不足的训练集,很难学习到精度高、泛化好的视觉模型;许多模型仅在特定环境下进行了评估,是非常不完备的。
如图1所示,平行视觉[3] 是复杂系统建模与调控的ACP (Artificial systems, computational experiments, and parallel execution) 理论在视觉计算领域的推广应用,是一种虚实互动的智能视觉计算方法。
论文中将平行视觉的理论方法引入到自动驾驶领域,解决交通视觉场景中的长尾问题,取得了很好的效果。
平行视觉的主要思路是利用人工场景模拟和表示复杂且具有挑战的实际场景,通过计算实验进行视觉模型的训练与评估,最后借助虚实互动的平行执行在线优化视觉模型,实现对复杂环境的智能感知与理解。
基于平行视觉的视觉方法可以学习到更有效的视觉计算模型,同时还可以全面评估视觉算法在复杂环境下的有效性,使模型训练和评估在线化、长期化。
通过持续对视觉系统进行优化,可以提高其在复杂环境下的运行效果,另外通过融合虚拟现实、机器学习、知识自动化等技术,可以使视觉系统真正走向实际应用。
图2. LoTR的示意图。(a) 在理想条件下获得的LoTR分布的统计分布直方图和概率密度曲线。(b) 真实世界交通事件的统计分布直方图和拟合长尾分布的概率密度曲线。(c) 理想情况下,长尾分布和LoTR分布结合起来形成一个均匀分布。(横坐标表示事件空间。”Crossroads wo TL” 表示“没有交通灯的十字路口”)。
如图2所示,长尾问题常态化是基于平行学习解决长尾问题的重要理论,通过在人工世界中利用虚拟数据对真实数据进行定向扩充,可以弥补由于数据不平衡而引起的长尾问题。图2(b)为真实世界交通事件的统计分布直方图和拟合长尾分布的概率密度曲线,满足长尾场景的概率质量函数
。图2(a)为理想条件下,在人工世界中构建的长尾常态化分布曲线,其概率质量函数
其中,
上述推导过程可以从理论上证明,基于平行学习的长尾常态化理论上可以解决长尾问题中数据的不均衡。
图3. 用于IVFC的PVAS概述流程图。其中,虚拟世界指的是通过仿真实现的ParallelEye-CS,真实世界指的是IVFC的试验场。
如图3所示,PVAS由两个世界和包括人工系统、计算实验和平行执行在内的三个单元组成,它们一起构成了一个虚实互动的闭环系统。
在虚拟世界中,早期的工作中已经构建了一个名为ParalleEye-CS[4] 的计算机仿真环境。ParallelEye-CS在整体布局上与IVFC中现实世界的试验场相一致。
在ParallelEye-CS中,通过修改仿真参数轻易地产生各种场景,这些参数不同的组合对应着不同的交通场景,因此ParallelEye-CS可以生成各式各样且带有标注的合成图像。
根据LoTR理论,我们可以在虚拟世界中依据真实世界的情况模拟出一个基本满足长尾分布的原始数据集。
基于ACP的闭环优化方法,不断调整虚拟世界中的环境参数设置,和交通对象位置,可以迭代产生一系列的复杂交通场景。
在这一过程中,虚拟数据集的分布逐渐在一定误差范围内满足常态化后的长尾分布,同时自动驾驶视觉系统也在虚拟世界中得到了初步的训练和优化。
此时,我们可以将在虚拟世界中成百上千次的实验经验总结实施到真实世界的比赛场景构建过程中,设置合适的比赛任务和比赛场景,更好地检验自动驾驶汽车的视觉系统能力。
有了来自虚拟世界的宝贵经验,在真实世界中搭建的比赛场景只需要再经过一些简单的测试和调整就可以达到理想的状态。
同时,虚拟世界中获得的自动驾驶视觉系统也可以作为真实视觉系统的一个有效初始状态,加快训练过程。
最后,每一届比赛结束后积累的经验也可以进一步指导下一届比赛准备过程中虚拟环境中各种参数的选择和设置,达到逐年提升的目的,形成虚拟世界与真实世界之间一个大的闭环优化过程。
论文中,针对上述方法和理论进行了实验,同时结合历年比赛数据分析,证明了系统的有效性。
IVFC由中国自然基金委员会支持,是国家自然科学基金委员会重大研究计划“视听觉信息的认知计算”的重要组成部分。IVFC创办于2009年,如图4所示,该赛事至今已经分别在西安、鄂尔多斯、赤峰、常熟等地举办了十二届,是世界范围内持续时间最长的无人车驾驶比赛[5] 。
图4. IVFC历届赛事举办地(2009-至今,2021年由于疫情推迟举办)
目前,常熟已经成为了IVFC的固定比赛站点,如图5所示,为常熟测试场地中“田”字城乡道路比赛场地的实际展示图。可以在场地中在平行视觉的指导下搭建出各种各样不同的真实交通场景,以测试自动驾驶汽车对城市和乡村道路中各种常见场景和长尾场景的处理能力。另外,常熟测试中心还设有近十公里长的高架道路,用于检验无人车在高速行进间的异常处理能力。
-
王飞跃. 平行系统方法与复杂系统的管理和控制[J]. 控制与决策, 2004, 19(005):485-489,514.
-
Wang F.-Y. Parallel Control and Management for Intelligent Transportation Systems: Concepts, Architectures, and Applications[J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(3):630-638.
-
Wang K, Gou C, Zheng N, Rehg J. M, Wang F.-Y . Parallel vision for perception and understanding of complex scenes: methods, framework, and perspectives[J]. Artificial Intelligence Review, 2017, 48(3): 299-329.
-
Li X, Wang Y, Yan L, Wang K, Deng F, Wang F.-Y. ParallelEye-CS: A New Dataset of Synthetic Images for Testing the Visual Intelligence of Intelligent Vehicles[J]. IEEE Transactions on Vehicular Technology, 2019, 68(10): 9619-9631.
-
Li L, Wang X, Wang K, Lin Y, Xin J, Chen L, Xu L, Tian B, Ai Y, Wang J, Cao D, Liu Y, Wang C, Zheng N, Wang F.-Y. Parallel testing of vehicle intelligence via virtual-real interaction[J]. Science Robotics 4, no. 28 (2019).