毫末智行「自动驾驶算法」的秘密
特斯拉的 FSD 系统解读
Andrej 博士在特斯拉 AI Day 上首先提到,五年前 Tesla 的视觉系统是先获得单张图像上的检测结果,然后将其映射到向量空间(Vector Space)。
这个「向量空间」则是 AI Day 中的核心概念之一。其实,它就是环境中的各种目标,在世界坐标系中的表示空间。
比如,「对于物体检测任务,目标在 3D 空间中的位置、大小、朝向、速度等描述特性组成了一个向量,所有目标的描述向量组成的空间就是向量空间。」
视觉感知系统的任务就是,将图像空间中的信息转化为向量空间中的信息。
一般可以通过两种方法来实现:
-
先在图像空间中完成所有的感知任务,然后将结果映射到向量空间,最后融合多摄像头的结果;
-
先将图像特征转换到向量空间,然后融合来自多个摄像头的特征,最后在向量空间中完成所有的感知任务。
Andrej 举了两个例子,说明为什么第一种方法是不合适的。
一,由于透视投影,图像中看起来不错的感知结果在向量空间中精度很差,尤其是远距离的区域。如下图所示,车道线(蓝色)和道路边缘(红色)在投影到向量空间后位置非常不准,无法用支持自动驾驶的应用。
图像空间的感知结果(上)及其在向量空间中的投影(下)
二,在多目系统中,由于视野的限制,单个摄像头可能无法看到完整的目标。比如,在下图的例子中,一辆大货车出现在了一些摄像头的视野中,但是很多摄像头都只看到了目标的一部分,因此无法根据残缺的信息做出正确的检测,后续的融合效果也就无法保证。这其实是多传感器决策层融合的一个一般性问题。
单摄像头受限的视野
综合以上分析,图像空间感知 + 决策层融合并不是一个很好的方案。
进而直接在向量空间中完成融合和感知可以有效地解决以上问题,这也是 FSD 感知系统的核心思路。
为了实现这个思路,需要解决两个重要的问题:一,如何将特征从图像空间变换到向量空间;二,如何得到向量空间中的标注数据。
特征的空间变换
对于特征的空间变换问题,一般性的做法就是:「利用摄像头的标定信息将图像像素映射到世界坐标系」。
但这有一些条件上的问题,需要有一定的约束,自动驾驶应用中通常采用的是地平面约束,也就是目标位于地面,而且地面是水平的,这个约束太强了,在很多场景下无法满足。
Tesla 的解决方案,核心有三点:
一,通过 Transformer 和自注意力的方式建立图像空间到向量空间的对应关系。简单说就是,向量空间中每一个位置的特征都可以看作图像所有位置特征的加权组合。
当然对应位置的权重肯定大一些,但这个加权组合的过程通过自注意力和空间编码来自动的实现,不需要手工设计,完全根据需要完成的任务来进行端对端的学习。
二,在量产车中,每一辆车上摄像头的标定信息都不尽相同,导致输入数据与预训练的模型不一致。因此,这些标定信息需要作为额外的输入提供给神经网络。
简单的做法是,将每个摄像头的标定信息拼接起来,通过神经网络编码后再输入给神经网络;但更好的做法是将来自不同摄像头的图像通过标定信息进行校正,使不同车辆上对应的摄像头都输出一致的图像。
三,视频(多帧)输入被用来提取时序信息,以增加输出结果的稳定性,更好地处理遮挡场景,并且预测目标的运动。
这部分还有一个额外的输入就是车辆自身的运动信息(可以通过 IMU 获得),以支持神经网络对齐不同时间点的特征图,时序信息的处理可以采用 3D 卷积,Transformer 或者 RNN。
图像空间感知(左下) vs. 向量空间感知(右下)
通过以上这些算法上的改进,FSD 在向量空间中的输出质量有了很大的提升。在下面的对比图中,下方左侧是来自图像空间感知+决策层融合方案的输出,而下方右侧上述特征空间变换 + 向量空间感知融合的方案。
向量空间中的标注
既然是深度学习算法,那么数据和标注自然就是关键环节,图像空间中的标注非常直观,但是系统最终需要的是在向量空间中的标注。
Tesla 的做法是利用来自多个摄像头的图像重建 3D 场景,并在 3D 场景下进行标注,标注者只需要在 3D 场景中进行一次标注,就可以实时地看到标注结果在各个图像中的映射,从而进行相应的调整。
3D 空间中的标注
人工标注只是整个标注系统的一部分,为了更快更好地获得标注,还需要借助自动标注和模拟器。
自动标注系统首先基于单摄像头的图像生成标注结果,然后通过各种空间和时间的线索将这些结果整合起来。形象点说就是 「各个摄像头凑在一起讨论出一个一致的标注结果」。
除了多个摄像头的配合,在路上行驶的多台 Tesla 车辆也可以对同一个场景的标注进行融合改进。当然这里还需要 GPS 和 IMU 传感器来获得车辆的位置和姿态,从而将不同车辆的输出结果进行空间对齐。
自动标注可以解决标注的效率问题,但是对于一些罕见的场景,比如,中金《人工智能十年展望(三):AI 视角下的自动驾驶行业全解析》报告中所演示的在高速公路上奔跑的行人,还需要借助模拟器来生成虚拟数据。
以上所有这些技术组合起来,才构成了 Tesla 完整的深度学习网络、数据收集和标注系统。
- 下一篇:电动汽车热泵空调系统
- 上一篇:张工聊测量 | 电池可拆卸性的测试与分析
-
汽车测试网V课堂
-
微信公众号
-
汽车测试网手机站
编辑推荐
最新资讯
-
Plus为自动驾驶卡车功能添加了H.E.L.P.警报
2024-12-23 17:18
-
美国能源部发布最新版氢计划
2024-12-23 17:16
-
系统级封装(SiP)在新能源汽车领域的应用
2024-12-23 08:51
-
车载通信框架 --- 智能汽车车载通信架构浅
2024-12-23 08:40
-
全国首例!武汉车网智联公司完成智能网联测
2024-12-23 08:39