自动驾驶车辆的社会交互：回顾与展望

2022-10-28 23:25:17· 来源：智能运载装备研究所作者：王文硕刘畅流等

一、概述本文详细讨论道路车辆(人类驾驶车辆和/或自动驾驶汽车)与自动驾驶汽车之间的交互机制，不包括行人、骑单车的人。重点探讨以下四个问题：1）道路交通场景中社会交互是什么样的？2）如何测量与评估社会交互？3）如何建模与揭示社会交互过程？4）在社会

一、概述
本文详细讨论道路车辆(人类驾驶车辆和/或自动驾驶汽车)与自动驾驶汽车之间的交互机制，不包括行人、骑单车的人。重点探讨以下四个问题：1）道路交通场景中社会交互是什么样的？2）如何测量与评估社会交互？3）如何建模与揭示社会交互过程？

4）在社会交互中，人类驾驶员如何达成隐式一致、顺利进行协商？

本文描述了各种建模和学习人类驾驶员间社会交互的方法，从优化理论、深度学习、图模型到社会场论和行为认知科学领域，最后还强调了未来研究的一些新方向、关键挑战和开放性问题。本文主要介绍社会交互的定义、社会交互的建模与学习方法相关内容。

理解复杂交通场景中人类驾驶员间动态交互的原理和规则有助于：1）利用对其他车辆动作或反应的信念和期望，生成不同的社会驾驶行为；2）预测含有移动物体的场景的未来状态，这对建立具备行为预测和潜在碰撞检测功能的安全智能车来说至关重要；3）搭建现实可行的的驾驶模拟器。然而，由于驾驶交互过程中会出现各种社会因素，包括社会动机、社会感知、社会控制，使得理解复杂交通场景中人类驾驶员间动态交互的原理和规则并非易事。（1 社会动机指驱使人们采取行动与其他人交互的因素。动机强调了执行行动的原因和欲望，而社会动机通常需要与其他人类智能体进行交互。2 社会感知指一个人通过其他人的行为去理解和推理他们的动机、态度、价值观的过程。不同于物体感知，社会感知通常包括远超观测数据的复杂的推论。3 社会控制指规则和标准集，其将个体约束在某一特定的要求下，使个体行为与既定规范一致。）

通常，人类驾驶行为由人类驾驶员间的社会交互和他们与环境的物理交互决定。人类驾驶员通过隐式、显式交流可实现与周围其他驾驶员的社会交互。物理环境中的静态物理障碍物（如停泊的车辆、道路边界）、动态物理信息（如交通灯、指示牌）会影响人类驾驶员在交互过程中的决策和运动。社会交互比物理交互更难理解，这是因为在社会交互中人类智能体间形成连续闭环反馈，且交互中存在不确定性。社会交互可能需要简单的决策，即直接将人类感知映射到动作中，无需具体的推理和规划（如反应式交互、跟车）；也可能需要复杂的决策，即通过预测其他智能体的行为和评估所有可能选择的影响、在众多选择中谨慎地决定一个动作（如让车或不让车）。另外一方面，人类驾驶员可以通过显示交流（如手势、转向灯）与其他驾驶员交互。然而，明确的交流方式在实际驾驶中并不总是有效的或最有效的。更多时候，人类驾驶员更倾向使用隐式交流在交互场景中完成驾驶任务。

所以，本文主要从测量方法、建模方法、未来挑战三方面讨论人类驾驶员间复杂的、隐式社会交互。

二、社会交互的定义

在交通领域，Markkula et al.统一定义了各类道路使用者间的交互，即‘A situation where the behavior of at least two road users can be interpreted as being influenced by the possibility that they are both intending to occupy the same region of space at the same time in the near future.’至少两位道路使用者的行为受道路使用者在未来同一时间占用同一空间区域的可能性影响的情况。该定义为辨别交通场景是否是交互的提供了明确的标准，其指出交互应该由至少3个基本元素组成：

至少两个智能体参与其中
智能体间彼此影响
智能体间有潜在的时空冲突

Duvall定义社会交互是一种试图影响或解释彼此主观经验或意图的行为。Markkula等人对车间交互的定义指出了交互包含的对象及交互将发生的时间，却无法解释交互的内在动态过程，如一个智能体应该如何考虑其他智能体动作和反应的影响。交通心理学家Wilde从概念上认为，自然交通中的社会交往过程具有社会习惯和价值取向、社会期望、社会交互模态等特征。Wang et al.在综述中为道路交通中的社会交互提出一个可量化的定义，即‘... a dynamic sequence of acts that mutually consider the actions and reactions of individuals through an information exchange process between two or more agents to maximize benefits and minimize costs.’在两个或更多智能体间的信息交换过程中互相考虑个体行为和反应，以使收益最大或代价最小的动态动作序列。该定义指出社会交互具有3个重要属性：动态性（多智能体间的闭环反馈）、可测量性（信息交换）、决策性（效用最大化）。

动态性：每个智能体考虑其他周围智能体的未来动作和反应，形成一个连续多智能体闭环反馈系统。在该系统中，每个道路使用者都对交通系统的总动态作出贡献，并受到总动态的影响。可测量性：道路使用者可能具有不同的社会驾驶特征，如驾驶意图、驾驶风格、驾驶偏好，使其产生不同的动作和反应。为了实现有效、安全的社会交互，每个道路使用者都需要传递他们的社会线索并能识别其他人的社会线索，形成一个信息交互过程。

决策性：基于动态性和可测量性，处于交互中的人类驾驶员理性地寻求效用最大化。

这种对社会交互的定义为心理学和机器人的连接提供了一个计算框架。

三、从人类间的交互到人类-自动驾驶汽车间的交互

1．人类驾驶员间的社会交互

人类是自然的社会沟通者，能与其他智能体安全、高效地协商，形成一个交互密集的多智能体系统。通常，人类驾驶行为由两种规范决定：法律规范和社会规范。但在实际交通中，人类驾驶员并不总是严格、刻板地按交通法规要求行驶，反之会根据隐式的社会规范行驶，以实现安全、高效的道路行为。现有研究也解释了根据非法律规范（如社会规范）采取行动可以使行为对其他人类智能体来说是可识别、可预测的，进而减少了交互不确定性、促成每个智能体的决策。所以，仅通过法律规范来理解和推断他人的驾驶行为可能是无效的，原因如下：

在一些场景下，交规并不总能指定驾驶行为。
人类驾驶员并非严格遵守交通规则。如下图所示，在现实生活中频繁发生的交叉路口的场景。前方蓝色车辆正在交叉口前等待左转，经验丰富的驾驶员（红色）可以从右侧越过白色实线以节省通勤时间。虽然轻微违反交通规则，但是可以改善交通流效率。

图1 交叉路口场景

因此，使自动驾驶汽车具备理解人类间动态交互的能力，可以使它们在充满人类驾驶汽车的环境中行驶时做出明智且社会兼容的决定。

注：并非鼓励AVs为了像人类驾驶员一样行驶而违反交通规则，主张的是学习和理解人类遵守的社会规范有助于更高效、更安全的交互。

2．自动驾驶汽车的社会行为

在人类驾驶汽车与自动驾驶汽车共存的交通环境中，自动驾驶汽车应该具备无缝融入道路的能力，达到人类水平的交互水平。然而，人类驾驶员和自动驾驶汽车遵循的规范之间存在着很大的差距，如图2所示。为了更有效、高效的沟通，自动驾驶汽车需要模仿类人驾驶，这就需要它们具备以下两点能力：

理解并适应他人的社会和动作线索。自动驾驶汽车被视为信息接收器，从而保持自身功能安全和高效。

提供可识别的、有信息含量的社会和动作线索。自动驾驶汽车被视为信息发送者，使其他人类驾驶员能够感知和理解自动驾驶汽车的行为，进而做出安全和有效的动作。

图2 从社会规范和法律规范角度阐释人类驾驶员、社会自动驾驶汽车、非社会自动驾驶汽车间的区别

图3解释了两个智能体之间的动态交流过程，每个智能体在信息交换过程中扮演两个角色：信息发送方和信息接收方。例如，智能体A作为信息发送者“告诉”智能体B它的意图。同时，智能体B感知和理解智能体A传递的信息，然后通过传递可识别的、有用的信息采取一些动作来回应或适应智能体A。赋予自动驾驶汽车以人类社交能力进而提高复杂交通场景下的交互性能的研究已经取得了显著进展。如利用计算认知模型定量评估交互过程中人类的社会偏好（如利他主义、亲社会主义、利己主义和竞争主义）和合作水平。

图3 对两个智能体间闭环交互体系的阐释

四、道路交通中的交互——When/Who? How?

先解决三个基本问题：‘when does interaction occur, and who is involved?’and‘how to quantify (social) interaction?’ 交互何时发生、与谁发生？如何量化社会交互？

1.交互何时发生、与谁发生？

在大部分驾驶任务中（如车道保持、信号交叉口受保护左转），人类驾驶员都是独自驾驶，仅对物理环境做出反应，并不直接与其他道路使用者发生交互。可以采用三种常用的方法来确定交互何时发生、与谁发生，分别为潜在冲突检测、感兴趣区域设置、以任务为主的智能体选择。

(1) 潜在冲突检测

检查人类驾驶员其他人驾驶员的未来路径是否冲突，如果路径冲突、那么他们之间就会发生交互。Wang和Hu等人假设只有会发生潜在冲突的车辆才能相互交互，简化了交互场景，这与人类在日常驾驶过程中的直觉是一致的。人类驾驶员可以利用道路几何形状和交通规则相关信息来检查与他车的潜在冲突。此外，人类驾驶员还利用线索及对他人意图、动作和运动的社会推理来识别潜在的冲突点。

(2)感兴趣区域（ROI）设置

交互发生于同时占据RoI的任何一对智能体之间，一旦其中任何一个智能体行驶到RoI外，交互就会消失。这种方法通常用于研究本智能体与周围智能体的交互行为，如高速换道行为。设置ROI通常是面向应用的，可根据以下两种方法设计：

以场景为中心：把RoI固定在地图上，将该区域的所有人类驾驶员视为交互智能体。该方法通常用于预测和分析特定交通区域内的多智能体驾驶行为，如城市交叉口和环形交叉口。
以智能体为中心：把RoI附加在感兴趣的智能体上，RoI的形状可以有多种。

有些研究将两种方法混合使用，如Hu等人在高速公路路段设置RoI后，进一步计算智能体之间的距离，以确定交互是否存在。RoI方法需要人为制定规则，其评估性能受RoI的配置影响，RoI越大、包含的智能体越多，便会估计出过多的交互。为了克服这个问题，可以根据驾驶任务主动选择交互智能体。

(3) 面向任务的智能体选择

人类驾驶员会根据具体的驾驶任务，有选择地决定应该更加注意哪些智能体、以及何时注意。受此启发，研究人员根据经验为特定任务选择智能体。例如，在向左变道任务中，研究者假设本车只与当前车道上的前车和左侧目标车道上的前车、后车相互作用。该假设与人类驾驶经验一致，只关注与任务相关的智能体，可以简化交互问题。然而，它需要具有特定领域知识的人为规则，并且可能无法捕捉到个体在‘如何关注’方面的差异。

上述三种方法已被广泛使用，但可能高估或低估了人类驾驶员之间的交互。在驾驶过程中的一些社会互动并不是来自潜在的冲突，而是来自社会凝聚力。例如，在十字路口遇到黄灯时，激进的司机会模仿前车的行为，采取机会主义的动作、继续向前行驶。在这种情况下，基于潜在冲突的方法不会将其视为一种交互。如果假设所有占据RoI的智能体之间都有交互作用，那么RoI方法会高估交互。此外，RoI的大小通常也很难设置，因为它与任务和环境相关。面向任务的智能体选择方法是模拟人类驾驶员之间交互的理想方法。然而，因为交互过程的信息很少是先验的，使得很难建立这种类型的模型。此外，人类在决策过程中的选择性关注是动态和随机的，这就需要模型具有时间适应性的特点。

上述方法将交互简化为二元事件，即存在交互和不存在交互。基于该假设，可以用现成的方法建立模型。然而，它们可能无法揭示人类驾驶员可以直接或间接地影响他们。在多智能体系统中，人类的驾驶行为可能会受到他人在空间和时间上的间接影响，而间接影响可从条件概率角度建模。

2.如何量化社会交互？

常用的两类量化方法为基于模型的显式方法和数据驱动的隐式方法。最常用的显式量化交互的方法是构建一个交互模型，用传感器感知到的数据估计一些参数，来量化智能体间的社会交互强度。基于不同的假设，交互模型又可分为四种：基于效用的模型、概率生成模型、势场模型、认知模型，如图4所示。在实际应用中，可以直观地假设交互强度与交通场景中智能体的相对距离及其变异(如相对速度和加速度)有关。例如，距离较近的人类司机会被直观地视为彼此之间有更大的交互影响。

图4 基于四种假设的显式建模交互方法

(1)基于理性效用的模型

基于效用的模型：人类驾驶行为或动作是使环境中某个效用函数最大化的最优结果。研究者将与物理距离相关的信息整合到目标/代价函数中，进而把人类驾驶员之间的交互问题构建为最优化问题，采用现有的动态和线性规划算法即可实现求解。通常，代价函数是研究者根据交通法规和驾驶任务这类先验知识自己设计的。通常，基于效用的模型通过仔细的参数调优能在类似的场景中达到预期性能，但在未见过的场景中泛化能力低。常见的典型模型有最优群、博弈论模型、模仿学习、马尔科夫过程。

分享到：

下一篇：基于多项式的智能车辆换道轨迹规划
上一篇：磷酸铁锂软包与铝壳电池性能比较

点赞 0 反对 0 举报 0 收藏 0 评论 0

汽车测试网V课堂
微信公众号
汽车测试网手机站

相关阅读

0 条相关评论

• 载荷分解	• 组分性能对锂离子电池卷芯挤压力学响应的影响：快速预测与
• 最新澳大利亚汽车技术法规清单	• 汽车智能性测评前沿：基于大模型安全测评
• 一文带你了解滤波器	• 漫说信息智能 · 电动车防晕车大作战
• R171.01对DCAS的要求⑨	• 智驾标准法规体系大全
• 一文带你了解自动驾驶数据合成的发展现状	• 驾驶员监控系统DMS合规认证的“中西结合”思考

自动驾驶车辆的社会交互：回顾与展望

微信公众号

编辑推荐

最新资讯

推荐性国家标准《乘/商用车电子机械制动卡

载荷分解

布雷博在上海开设亚洲首个灵感实验室

组分性能对锂离子电池卷芯挤压力学响应的影

美国发布自动驾驶新框架，放宽报告要求+扩