综述-基于车辆信息的多模态融合技术

2022-11-30 10:55:34· 来源：计算机视觉深度学习和自动驾驶作者：黄浴

综述论文“Multi-modal Fusion Technology based on Vehicle Information: A Survey”，22年11月。多模态融合方法主要关注摄像头数据和激光雷达数据，但很少关注车辆底部传感器提供的运动学信息，例如加速度、车辆速度、旋转角度。这些信息不受复杂外部场景的

综述论文“Multi-modal Fusion Technology based on Vehicle Information: A Survey”，22年11月。

多模态融合方法主要关注摄像头数据和激光雷达数据，但很少关注车辆底部传感器提供的运动学信息，例如加速度、车辆速度、旋转角度。这些信息不受复杂外部场景的影响，因此更为稳健和可靠。本文介绍车辆底部信息的现有应用领域和相关方法的研究进展，以及基于底部信息的多模态融合方法；还介绍了车辆底部信息数据集的相关信息。此外，提出用于自动驾驶任务的多模态融合技术的未来新思路。

转向角和车速的应用现状和代表性方法

在转向角方面，建议对转向角预测、多辅助任务、变道预测和噪声图像数据下的感知进行一些研究。在速度方面，对驾驶风格分类、速度预测、轨迹预测、里程、时间、功耗预测、理想角度、车辆减速预测进行了一些研究。

当车辆行驶时，仅靠视觉输入不足以做出准确的转向判断。通过添加车辆运动学信息，可以更好地估计车辆的行为。运动学信息确保汽车不会执行违反某些物理规则的驾驶行为。据推测，10英里/小时和30英里/小时的U形转弯在转弯角度和控制策略方面有所不同。然而，给出的视觉观察结果几乎相同。虽然可以从场景变化的速度推断车辆的速度，但这仍然是模糊的，不容易从图像中学习。而车辆自身的传感器，可以提供诸如当前车辆速度和转向的信息。

此外，应用于车辆信息融合的一些辅助任务也可以帮助了解车辆的周围环境。在正常情况下，驾驶员可以通过关注重要信息和了解驾驶场景来快速做出驾驶决策。经过训练的端到端自动驾驶和深度学习使驾驶员能够用带有驾驶行为标签（如转向角和速度）的监督学习在驾驶场景中做出相应的判断。但是，在这种方法中，端到端模型很难学习和理解一些重要特征信息与驾驶行为之间的映射关系。对驾驶决策有重大影响的区域，如车辆、行人、交通灯和可驾驶区域，没有得到更多关注。因此，基于多任务的学习与多辅助任务（如语义分割和目标检测）一起使用，这有助于关注显著区域并理解驾驶场景。

如图是多辅助任务的例子：

德国一项研究报告称，考虑到变车，城市道路上变道的概率为55%，高速公路上转向灯的使用率为75%。来自三个来源的数据融合通常会产生最佳的预测率：1）驾驶员行为观察（例如眼睛跟踪）；2）环境传感器信息（例如前/侧雷达、车道检测、GPS/地图数据）3）车辆参数（例如转向信号、速度、加速度、方向盘角）。方向盘角作为一个可直接测量的车辆参数，似乎是一个很有前途的变道早期预测指标。这里提出一种方向盘角的数学模型，有助于预测变道机动。

许多研究表明，当视觉信息受到噪声干扰时，车辆的感知会受到很大影响。特斯拉的一个无人驾驶事故是由于感知模块在强光环境下发生故障所致。潮湿的道路很容易在摄像头图像中过度曝光，甚至有阳光直射到摄像头传感器，导致镜头光晕。这些不利的光照条件在测试期间有一些差异，因为测试期间太阳位置发生了变化，这可能会影响不同模型结果的比较。如图所示为噪声干扰例子：

驾驶员的非正常驾驶行为是交通事故的主要原因，如酒后驾驶、疲劳驾驶、攻击性驾驶。如果有一些方法可以预测驾驶员的驾驶行为，可以提醒驾驶员，减少事故的发生。一些监控驾驶员行为的方法直接监控驾驶员的面部和身体，但人们可以主观地控制他们的表情，因此这种方法可能具有欺骗性，并侵犯人们的隐私。由车辆的底层信息预测的驾驶行为不能被人主观地改变，因此由车辆的诸如速度和加速度等底层信息预测出的驾驶行为更加准确和令人信服。除了判断驾驶行为有助于预防交通事故外，还为优化油耗提供了一些支持，因为不同的驾驶行为具有不同的油耗。例如，激进驾驶通常比正常驾驶消耗更多的燃油。目前，一些保险公司还必须判断驾驶员的正常驾驶行为，以便按照不同的标准划分保险成本，如果驾驶员通常是激进驾驶，那么他的保险成本将高于普通人。

随着人口密度的增加，城市地区的大部分空气污染都是由机动车尾气排放造成的。目前，许多研究已经通过预测车辆状态来优化动力系统控制，从而降低燃油消耗，满足严格的排放法规，并减少环境污染。此外，在自动驾驶方面，汽车面临的最大挑战是自动横向和纵向控制，包括转向和速度控制。因此，准确预测速度尤为重要。

在驾驶习惯方面，人们通常在转弯时减速，直行时适当加速。因此，这种行为可以在自动驾驶汽车上继续模仿这个习惯，根据前方道路的曲率预测速度是否应该增加或减少，以帮助车辆更好地控制。

许多预测车辆速度的方法都使用特定时间段内车辆的信息来预测未来特定时间段的速度。他们只考虑车辆本身的信息，而不考虑一些影响速度控制的因素，例如道路交通状况和与周围车辆的距离。这种外部环境的影响增加了速度预测的压力。

使用什么数据来预测速度需要充分的理由。当使用的数据太少时，不足以反映车辆状态。当使用过多数据时，不相关的数据会干扰模型。

上述方法大多基于燃油车。在电动车方面，因其无污染、低噪音、无需频繁维护等优点，已经逐渐进入人们的生活。

大多数关于速度预测的研究都是在正常的地理条件下进行的。受气压、温度和湿度、氧含量等因素的影响，不同海拔高度对车辆动态性能的影响不同，人们的驾驶习惯也不同。因此，需要特定的模型来预测高海拔地区的车辆速度。

如果在交通监控系统上实时进行道路车辆的轨迹预测，或者将一套轨迹预测系统应用于车辆，那么当车辆之间的轨迹发生冲突时，轨迹预测系统可以通过给车主一定程度的提醒来减少大量的交通事故。

在高速公路上，车辆行驶速度更快，变道过程更危险，如果能够及时预测车辆在变道过程中是否处于安全状态，就可以影响驾驶员的行为，避免发生事故。

传统的预测轨迹方法使用基于物理的运动模型，虽然它们的结果在短期内是准确的，但如果它们超过1秒，结果就不那么可靠，无法进一步参考。

虽然汽车的油耗表可以显示汽车的瞬时油耗、平均油耗和里程数，但汽车的里程数是根据汽车油箱中的剩余燃油除以汽车的平均油耗来计算的。平均油耗是根据一段时间内的里程数和油耗来计算的，实时性不高。此外，如果可以根据实时信息在车辆显示屏上显示剩余时间和剩余里程，则信息量更大，从而驾驶员可以根据各种信息安排行程。因此，用影响燃油消耗的参数（如车速和道路坡度）来预测剩余里程和时间可以为驾驶员提供更大的帮助。估计车辆的实时能耗可以监测道路污染，并为减少污染技术提供数据支持。

在转向不足或过度（如漂移）的情况下，车辆的稳定性控制系统尤为重要，稳定性控制系统通过干预发动机或车轮将车辆恢复到稳定状态。在横向稳定性控制方面，滑动角和滚动角是车辆横向稳定性的关键参数，但这些参数需要非常昂贵的设备测量。

如果在发生碰撞之前向驾驶员发出一定程度的警告，则会减少大量的交通事故，即使在自动驾驶的情况下，也需要一定的时间才能做出反应。制动减速度是指车辆在行驶过程中快速降低行驶速度直至停止的能力。

多模态融合方法

对于多模态融合，决定使用何种信息融合和融合方法是极其重要的。本文介绍了递归绘制（recurrence plot）和谱图（spectrogram），将一维信息转换为二维图像，并且便于二维卷积神经网络。然后，提出张量融合（tensor fusion）和自适应多模态融合（adaptive multi-modal fusion）技术。

递归绘制（RP）首次于1987年提出，用于非线性动力系统的定性分析。RP是从表示每个时间点之间距离的时间序列数据获得的图像，并且可以用阈值对图像进行二值化。一般RP是分析时间序列的周期性、混沌性和非平稳性的重要方法，可以揭示时间序列的内部结构，提供关于相似性、信息量和可预测性的先验知识，RP特别适用于短时间序列数据。RP最近被用于识别许多其他领域中时间序列的动态模式变化，例如金融数据时间序列和生态系统时间序列。由于RP可以将时间序列转换为二维信息，因此它特别适用于二维卷积神经网络，这为一维信息和二维信息的转换提供了重要支持。

如图为基于递归绘制判断驾驶状态的网络架构：

车辆的转向角、车速、加速度等信息随时间变化。谱图是能够反映频率随时间变化的图像。它可以将一维信息转换为二维信息，因此可以更方便地应用于卷积神经网络。

在信号处理领域，有三个主要域角度可分析信号，即时域、频域和时频域，对应于时域图、频域图和时频图，即语言频谱（language spectrum）。时域和频域只能表示信号的二维信息，而谱图使用二维图像表示三维信息。谱图（Spectrogram）的横坐标是时间，纵坐标是频率，坐标点值是语音数据能量（speech data energy）。由于二维平面用于表达三维信息，能量值的大小由颜色表示，颜色暗度表示点的语音能量强度，这是音频在时域和频域特性中的综合描述。谱图（Spectrogram）基于短时傅里叶变换（STFT），在分析信号的时频特性方面非常有用。STFT是最经典的时频域分析方法，STFT通过长时间的信号成框、加窗，然后对每个信号框进行傅里叶变换（FFT），最后将每个框的结果沿另一个维度叠加，形成频谱。

张量融合作为多模态信息融合的主流融合方法，在各个领域得到广泛应用，自动驾驶领域也不例外。张量融合有多种方法，如早期简单特征拼接、后期决策融合、张量外积融合等。

在自动驾驶领域，除了图像和其他数据信息之外，车辆底部的数据信息，例如转向角和车速也非常重要。通过张量外积方法，可以将各种车辆底部信息和图像数据信息进行融合，以更好地解决实际问题。这种融合方法可以更充分、更灵活地融合各种数据信息之间的特征，其效果优于简单的特征拼接和后期决策。

张量外积是从每个模式中提取的特征向量进行外积运算，获得高维融合张量Z，然后通过线性层将高维融合张量器Z投影到低维空间中。每个特征向量的每个元素都是完全融合的。两种模式融合后形成二阶张量，三种模式融合之后形成三阶张量。

张量融合网络需要对每种模式的特征向量进行外部乘积运算，当需要融合的特征向量较多时，网络将进行高维张量计算，计算成本将非常高。例如，同时融合转向角、车速和图像这三个信息，融合后将得到一个三阶张量Z。如果想使用线性层将其投影到低维空间，需要一个四阶权重矩阵W和Z来完成计算。

鉴于张量融合网络的高计算成本，许多网络模型提出了不同的解决方案。比如：对张量融合网络的参数W和融合张量Z进行分解，最后将高阶张量运算分解为线性运算，使得计算成本不会随着模态的增加而呈指数增长。在此基础上，有一种低阶多模态融合方法。另外，这里采用傅里叶卷积代替以往的高阶张量计算，可以解决计算成本高的问题，并提出一种多模态紧凑双线性池化（MCB，Multi- modal Compact Bilinear pooling）融合网络。

自适应多模态融合更加灵活和自然，因为这种融合网络不会确定特定的融合操作，例如特征拼接、张量外积等，而是让网络决定“如何”更有效地集成给定的一组多模态特征。有两种自适应融合网络结构：1）自动融合，它对所有模式的信息进行编码，并将其拼接成张量，然后使用解码器恢复特征，最后计算特征之间的损失。该方法不仅集成了特征向量，还学习了有用的特征。它解决了最终预测器承担识别有用信号这个额外责任问题。2） GAN融合，网络首先找到一个主干模式，然后融合除主干模式之外的其他模态信息，并将融合的信息与主干模式的信息进行融合，从而获得主干模式的新特征向量。在相同的操作中，所有模式同时用作主干模式，因此可以获得每个模式的新特征向量，然后拼接这些特征向量。这才完成最后的集成。

如表是开源数据集的比较：

挑战

车辆的自动驾驶功能主要通过纵向运动控制和横向运动控制来实现。在自动车辆控制中，纵向控制仍然是一个具有挑战性的问题。除了摄像机/雷达收集的视觉信息外，随着车载传感器数量的增加，可以收集到越来越多的车辆运动状态参数。例如，纵向加速度、空气阻力、轮胎载荷、地面摩擦、地面倾斜等。通过结合图像感知信息，车辆可以在定速巡航、自适应巡航和防撞系统中实现更好的纵向控制。因此，研究人员可以尝试结合来自不同驾驶场景的丰富的自传感器信息，以实现车辆控制。

在研究场景方面，目前大多数研究都集中在日间驾驶场景，只有少数研究涉及夜间驾驶，大多数研究人员在他们的场景中忽略了夜间驾驶。如果自动驾驶仅依赖日间驾驶，则其运动范围有限。然而，自有传感器的信息不受恶劣天气和光线条件的影响。因此在未来的研究中广泛使用车辆信息，以提高场景泛化能力。

在数据集方面，具有车辆基础传感器信息的公开可用数据集相对较少。大多数研究人员收集特定场景或条件的固定数据，缺乏具有车辆运动学参数的大规模自动驾驶数据集。一种常见的解决方案是对有限的数据执行数据增强以获得额外的训练数据。如普通的翻转、裁剪、增加阴影操作，或者转换图像的颜色、亮度、强度和空间。然而，与涵盖各种照明条件和复杂道路条件的真实数据集相比，它仍有一定的局限性。此外，许多研究人员已经在模拟器上构建了自动驾驶模拟场景，并获得了用于模型训练的模拟数据，但从模拟到现实世界，误差几乎增加了一倍。现实世界环境的复杂性和多样性带来了更大的挑战。这表明未来需要在更大的真实世界数据集和更真实的模拟环境中进行培训和测试。

未来研究方向

准确区分驾驶员的驾驶行为在驾驶辅助系统、道路安全、能源优化等方面发挥着重要作用。基于驾驶员动态行为分类方法，直接使用摄像头对准驾驶员的面部和身体，这侵犯了驾驶员的隐私。基于车辆动力学的行为分类方法，仅使用车辆信息进行分析，缺乏能够提供车辆和道路周围丰富信息的图像。车辆信息的变化程度直接反映驾驶员的驾驶行为。例如，短时间内速度的急剧变化反映出驾驶员处于攻击性状态。道路图像可以反映交通空旷程度、拥挤程度以及与障碍物的距离。如果将车辆信息与图像相结合，则可以使信息互补并提高分类性能。

对于自动驾驶汽车，由于摄像头拍摄的频率固定，车辆只能盲目跟踪目标，而不知道目标位置变化的程度。诸如车辆速度之类的车辆信息直观地反映了没目标位置的变化程度。相邻帧之间的速度越快，目标位置的变化越大，图像之间的目标相似度越低。因此，车速可以用作目标跟踪的辅助信息，该辅助信息可以与图像相结合，以提高目标检测能力。

转向角预测可纳入更广泛的基于计算机视觉的技术，如车道线检测、障碍物检测等。在自动驾驶领域，车辆的必要功能之一是需要准确识别车道线。根据不同的路况，合理的车道保持以防止偏离安全驾驶区域与准确的转向角预测密不可分。在转弯过程中，由于车道线处于弯曲状态，且车道线跨越图像的不同区域，因此卷积神经网络中的卷积核在提取特征区域方面存在局限性，无法有效地提取弯曲的和跨区域特征。转弯角度描述了转弯跨度大小，即车道线的弯曲程度，直观地反映了车道线的状态。因此，转弯角度可以用作辅助数据和图像，以提高车道线的识别能力。

分享到：

下一篇：《上海市智能网联汽车示范运营实施细则》
上一篇：Tesla 热管理系统技术迭代分析（Model S/X/3/Y热管理系统介绍）

点赞 0 反对 0 举报 0 收藏 0 评论 0

汽车测试网V课堂
微信公众号
汽车测试网手机站

相关阅读

0 条相关评论

• 漫说信息智能 · 电动车防晕车大作战	• R171.01对DCAS的要求⑨
• 智驾标准法规体系大全	• 一文带你了解自动驾驶数据合成的发展现状
• 驾驶员监控系统DMS合规认证的“中西结合”思考	• 自动驾驶汽车测试关键行人场景生成
• 高效三通道双向电源：释放测试潜能	• 一文讲述汽车电子电气EEA架构
• 纯电动汽车高速工况下底盘后部空腔引起低频噪声问题的分析	• 本田第二代燃料电池膜电极开发技术

综述-基于车辆信息的多模态融合技术

微信公众号

编辑推荐

最新资讯

漫说信息智能 · 电动车防晕车大作战

R171.01对DCAS的要求⑨

智驾标准法规体系大全

国内最大汽车创作者大会开幕，懂车帝投入5

大卓智能端到端直播实测，16公里复杂路段挑