在自动驾驶汽车 (AV) 开发和测试的早期阶段,尚不清楚哪些指标最适合评估和衡量安全性。在这里,TRL 的安全研究员 Ben Simpson 讨论了当前的挑战和建议。
发展和采用自动驾驶汽车的主要动力之一是改善道路安全。这主要是通过减少人为错误导致的碰撞的严重程度和频率来实现的。问题是我们应该如何评估自动驾驶汽车的安全性能呢?根据碰撞情况直接与人类驾驶的车辆进行比较,需要一个系统行驶数百万甚至数十亿英里,才能得出具有统计学意义的结论。这些数据在AV部署的早期阶段是无法获得的,也不一定包括统计上的异常值或“边缘情况”。即便如此,自动驾驶汽车仍有可能通过定期更新而不断发展,这与传统汽车不同,传统汽车的制造和维护都是按照固定标准进行的。
目前用于常规车辆的典型型号审批系统只会在自动驾驶汽车首次投入使用时对其进行审核。那么,我们应该用什么标准来评估自动驾驶汽车的安全性,如何持续监测和评估它们呢?对安全性能指标的需求仍然是监管机构和研究机构反复提出的建议,但迄今为止,没有什么答案出现。
安全指标分为两大类;滞后和领先。滞后指标也称为安全结果,包括定义明确的事件,例如碰撞。领先指标是这些结果的先兆,例如不安全行为或未遂事件。这些发生的频率远高于安全结果,提供了更多的学习机会。至关重要的是,它们还可以在任何伤害发生之前识别和减轻风险。不幸的是,这些衡量标准往往更加模糊,难以定义,而且往往难以衡量。事实上,对于什么构成未遂事故的广泛接受的定义,以及对它们进行分类和测量的客观方法,并不存在。
部分问题在于,要准确地指出是什么不安全行为使其不安全是非常具有挑战性的。直觉上,我们知道,超速或加速驾驶,或非常接近他人驾驶等行为,会增加人类驾驶员发生碰撞的风险。然而,目前还没有从自动驾驶汽车收集到足够的数据来梳理出这些领先指标与我们试图避免的滞后安全结果之间的确切联系。这里还存在另一个挑战:与人类驾驶员相比,一些领先指标在自动驾驶系统(ADS)中的应用可能会有所不同。
在运行过程中,自动驾驶汽车从大量传感器收集大量数据以确保成功运行。这包括车辆位置和运动学数据,以及有关周围环境和其他参与者的详细信息。其中一些数据可能是揭示 ADS 执行驾驶任务的方式与其发生碰撞的可能性之间的关系的关键。
目前使用的最广泛的领先指标是脱离接触的数据,在这种情况下,车辆的控制权从 ADS 转移到安全驾驶员,无论是应 ADS 的要求还是由于安全驾驶员的干预。在没有任何其他性能指标的情况下,这已被过度依赖作为安全性的代理。这个指标很容易被公众理解,而且每英里脱离率低的系统被认为本质上比脱离率高的系统更安全。但是,该数据集未能捕获有关发生脱离的场景及其背后原因的足够详细信息。例如,在密集的城市环境中测试的 ADS 可能比在安静的高速公路上测试的同一系统更频繁地脱离。孤立地来看,脱离数据并不能准确地反映系统的安全性,也不能在系统之间进行公平的比较。
近年来,对脱离数据作为绩效指标的批评越来越普遍,一些机构和研究机构强调需要一个更彻底的框架。直到最近,兰德公司(RAND Corporation)的《自动车辆安全测量》(Measuring automated vehicle safety)和SAE自动车辆安全联盟(automated vehicle safety Consortium)的《自动驾驶系统安全性能评估指标和方法最佳实践》(Best practice for metrics and methods for assessment of automatic Driving Systems)等出版物才开始填补这一空白。这些论文在提出替代安全指标和在当前操作实践中实施它们的框架方面取得了进展。TRL同意这些论文中的观点,并欢迎更安全的自动驾驶汽车的发展。
TRL还在“奋进”项目下对这一课题进行了研究,以进一步开发自动驾驶汽车的安全保证流程。这包括文献综述和与少数行业利益相关者的非正式接触。作为这项研究的一部分,我们评估了一系列指标的适用性。我们对每一项指标都进行了评估,以评估我们认为它能达到以下目标的程度:
是否与不良安全事件有公认的联系
不鼓励不利的驾驶或行为,并且不能被操纵
是否可靠、可重复和可测量
图片由 UNP(联合国摄影师)的 Richard Grange 提供
我们不相信这个问题可以通过应用一个单一的指标来解决。相反,我们设想需要一组指标,每个指标都构成解决方案的一部分。迄今为止,我们评估的主要指标通常分为六大类。在每个类别中,特定指标可以单独使用,也可以作为更广泛数据集的一部分使用。
与驾驶相关的违规行为的衡量标准。这可能包括闯红灯或超速。违规行为与人类驾驶员的碰撞在统计上具有显着关系,我们相信自动驾驶汽车和违规行为也存在类似的关系,尤其是涉及通行权的违规行为。
潜在的或实际的安全包络范围违规。安全包罗范围是车辆周围的边界,通常以距离或时间来衡量,在该边界内物体成为车辆的安全问题。此类别中的指标示例包括车头时距和碰撞时间。
驾驶风格的衡量标准。这可能包括车辆运动学,例如速度和加速度,以及车辆安全系统的触发器。
未完成任务的度量。这可能包括不完整的行程、最小风险机动 (MRM) 触发器的数量、系统故障、操作设计 域 (ODD) 违规和脱离。虽然孤立地脱离接触的价值有限,但列出的事件都表明了车辆无法完成其任务的原因,并且可能导致不安全事件,因此需要进一步调查。
危害识别和反应,以及风险感知。这可能包括识别风险的时间,或 ADS 在识别特定危险方面的成功程度。
定性的用户反馈,包括来自乘客和其他道路使用者的反馈。在可预见的未来,在公共场所运行的 AV 将以某种方式与人互动,因此能够以可控和可预测的方式进行互动是必要的。
关于应该使用哪些指标来持续评估 AV 安全性,仍有许多问题需要回答。这是一个多方面的挑战,有几个未知参数,在达成任何类似共识之前,可能需要进行多次实际测试和迭代。
随着人们对这些领先指标与滞后安全结果之间的关系有了更多的了解,我们预计这些会随着时间的推移而发展。例如,上面的许多指标需要明确定义,当值超过预先指定的阈值时,将以实例计数的格式记录。需要做更多的工作来指定这些阈值,我们认为需要真实世界的经验来定义这些关系,以及适当的阈值如何针对不同场景而变化。此外,类别中会有属于正常操作的一部分且与安全无关的事件,因此我们预计,至少在最初阶段,这些数据将需要一定程度的后处理以过滤掉这些事件。
将这些数据与人类驾驶车辆进行比较可能仍然很困难,因为人类驾驶员没有记录这种级别的信息。我们预计自动驾驶汽车和人类之间的直接比较将继续基于滞后的方法进行。如果人类驾驶员不是基准,那么定义指标、阈值和最终整个框架的最重要问题将是“如何安全才足够安全?”。
事实上,我们知道这不是最终答案。作为一个行业,我们目前处于一种进退两难的境地。我们需要从AV收集数据,才能得出我们需要从AV收集哪些数据的结论!这就是为什么我们认为最重要的是让开发商、制造商和其他相关利益相关者开始记录一些东西,因为这些数据将提供一个有价值的拼图。