2016 年 10 月,特斯拉宣布搭载 Autopilot 2.0 硬件的车型开始量产。整整两年后的今天,特斯拉开始向全球车主推送 Autopilot 9.0(2018.40)版本系统更新。从 9.0 开始,这些越级标配的自动驾驶套件正式结束了「闲置」状态,在特斯拉迈向 L4 级自动驾驶的道路上发挥作用。
先看个视频,这是最新版本的 Autopilot 在量产车上的表现:感知和融合路况信息、对路径进行规划与决策,最后完成控制与执行。一个 L4 级自动驾驶 Demo 的基本环节都呈现出来了。
Camera first:几乎不可能完成的挑战
虽然视频看得很多车主蠢蠢欲动、搓着手等推送,但对比特斯拉的规划可以发现,Autopilot 团队达到这样的技术能力比预期晚了至少一年——Elon Musk 承诺 2017 年底实现的从加州-纽约长达 4500 公里的全·自动驾驶技术展示已经推迟到了 Autopilot 10.0 发布。
所以说,Autopilot 团队才是超越 Model 3 项目团队当之无愧的特斯拉跳票王。为什么做到这样的技术能力要花费整整两年时间?
今天来重新审视一下 Autopilot 2.0 硬件:
- 3 个前置摄像头(广角(60 米)、长焦(250 米)、中距(150 米))
- 2 个侧方前视摄像头(80 米)
- 2 个侧方后视摄像头(100 米)
- 1 个后视摄像头(50 米)
- 12 个超声波传感器(探测距离/精度翻倍)
- 1 个增强版前置雷达(160 米)
- Tesla Vision 视觉处理工具,基于深度神经网络
- 英伟达定制 Drive PX2 计算平台
其实很容易发现问题,这已经不是有没有激光雷达了,特斯拉 Autopilot 2.0 硬件连毫米波雷达都只用了一个。对比一下蔚来 ES8 的 NIO Pilot 配备了 5 个毫米波雷达、有很重的特斯拉基因的小鹏 G3 也配了 3 个毫米波雷达。
考虑到超声波传感器的探测距离只有 8 米,摄像头在特斯拉自动驾驶汽车的感知环节承担的任务非常非常重。
可以这么说,Elon Musk 接管了 Autopilot 团队以后的指导方针就是:覆盖全车 360° 的视觉和吝啬的超声波、毫米波雷达感知+计算机视觉科学+深度神经网络=自动驾驶。
这个方案鲜明地彰显了 Elon 推崇之至的第一性原理思维,即从最基础的物理原理角度出发,Autopilot 2.0 硬件所能达到的感知和计算能力已经超过了人类,那么从理论上来说,补足软件技术能力后,它所能实现的驾驶能力也应该超过人类。更确切的说,“达到人类的十倍”(Elon 语)。
不得不说,这个愿景非常的理想化,在实际落地过程中,无论是软件层面还是硬件层面都有着无数的大坑在等待着特斯拉。
首先从软件层面,不少顶级名校计算机视觉科班出身的行业专家都认为目前该领域本身还存在着明显的瓶颈。一位自动驾驶创业公司 CEO 曾评价说,(现阶段)一定要坚持有冗余的多传感器融合方案。以目前的计算机视觉技术,任何狂吹自己深度学习多么牛,只用摄像头就可以低成本做自动驾驶的都是耍流氓。
事实上,超过 90% 的自动驾驶从业者都同意这一观点,即有冗余的多传感器融合是现阶段自动驾驶商业化唯一可行的方案。
写到这儿我想到一个有趣的点,历数一下 Autopilot 团队的几任负责人:
- 项目创始人 Sterling Anderson
- 软件副总裁 Chris Lattner
- 软件副总裁 Jinnah Hosein
- 软件副总裁 David Nistér
- 软件负责人 Sameer Qureshi
- 项目负责人 Jim Keller
- 工程副总裁 Stuart Bowers
- Autopilot 视觉主管/AI 主管 Andrej Karpathy
这几个人有两个共同点:他们都是横跨学界和工业界的机器人/计算机视觉/硬件开发领域的顶级人才,另一个共同点就是此前的职业生涯均未涉入自动驾驶领域。
所以我有一个不负责的猜想,Elon 坚持 Camera first 落地自动驾驶的战略是如此极端且激进,以至于真正专业的技术专家都没什么兴趣加入 Autopilot 团队接下这个基本不可能完成的挑战。
Elon 转而大胆启用能力够强但又对自动驾驶领域了解不多的那些人才,但很显然他本人远远低估了摄像头为主实现自动驾驶的挑战。以至于特斯拉花费两年时间也只能做到非常初级的自动驾驶 Demo,而上述 8 人中已经有 6 人在意识到这是一个空前绝后的大坑后选择离职。
Camera first 难在哪?
在包括激光雷达在内的所有的自动驾驶传感器中,摄像头拥有最丰富的线性密度。即便对那些多传感器融合技术路线的厂商来说,基于视觉的感知在整个自动驾驶体系中的重要性也在持续提升。基于图像信息密度最高的优势,摄像头逐渐占据整个感知融合的中心地位。
摄像头实现自动驾驶的感知难在哪里,按照非常朴素的第一性原理逻辑,当然没什么难的:人类驾驶汽车就是人眼影像感知为主,Autopilot 2.0 一共 8 路摄像头影像+前置毫米波雷达,理应更加强大。
但纸上谈兵是一回事,上手实操完全是另一回事。
从工程角度来说,首先,在暴雨/雪天、夜间行驶、光线快速变化等复杂工况下,摄像头的感知性能会出现急剧下降。这是所有自动驾驶从业者都会面临的复杂挑战,在全面彻底解决之前,以摄像头为主的自动驾驶汽车永远无法商业化。
除此之外,特斯拉还面临一些独有的挑战。
伴随着搭载 Autopilot 2.0 硬件的车型量产,特斯拉从零建立了视觉处理工具 Tesla Vision、全新的底层软件技术架构和云端大数据基础设施,并重新定义了 Autopilot 功能路线图。
这也就意味着 Autopilot 1.0 时代来自 Mobileye 非常专业的车规级产品经验被全部抛弃,所以对特斯拉来说,在工程层面还面临着自行设计车规级产品的挑战,比如 Autopilot 团队需要克服车规所要求温度、湿度、辐射、传导、延迟、以及电源信号的浪涌、反接、高压等数十个苛刻指标。光温度一项,就要满足零下 40°C-85°C 的区间内所有元器件稳定运行。
这种高度垂直整合的做法非常的特斯拉,2016 年 5 月,美国发生了全球首起因误用 Autopilot 致死的惨剧,随后特斯拉 Autopilot 团队找到雷达供应商博世,通过雷达的驱动程序更新,拿到了更高精度的原始雷达数据,绕开博世算法推送了基于自研算法的、以雷达为主传感器的 Autopilot 8.0 更新。
所以在特斯拉股东和粉丝推崇的垂直整合背后,是一个又一个非常艰巨的跨学科工程挑战。
下面说软件层面的挑战,上面视频的结尾,我们可以看到 Autopilot 9.0 已经做到了基础的三车道感知覆盖,另外一些视频证明,Autopilot 9.0 支持识别车侧后(侧方 or 后方摄像头识别)的机动车、摩托车和行人,这意味着全车 8 颗摄像头已经全部启用且均具备了基础的交通工具识别能力。
这对软件技术能力提出了多高的挑战?
或许我们需要再次拿出 Mobileye 驱动的 Autopilot 1.0 硬件来做对比,Autopilot 1.0 参与感知的只有 1 颗前置摄像头,而 Autopilot 2.0 硬件的前置摄像头一共有 3 颗。
Autopilot 1.0 是基于 Mobileye 的单目视觉路线,工作原理是通过图像匹配进行目标识别,再通过目标在图像中的大小去估算目标的距离。也就是说单目视觉路线的摄像头本身不具备识别物体的能力,Mobileye 必须维护一个庞大的样本特征数据库,以匹配摄像头捕捉到的所有目标。
而做到「匹配所有目标」是不可能的,也就意味着单目视觉在面对很多非标准物体(比如飞过一只塑料袋),会束手无策。
而双目视觉,与「人类双眼」原理类似,通过两颗摄像头获取的两幅图像的视差,计算得出距离。也就是说,系统不需要数据库就可以判断目标形状、色彩和所处位置。
特斯拉 Autopilot 2.0 车型,是全行业首个采用三目视觉感知方案的车型,其中探测距离达 250 米的长焦摄像头负责高速行驶场景下的远距离感知;探测距离 150 米的主摄像头负责主流场景的大部分感知;而探测距离只有 60 米、但探测宽度达到 120 度的鱼眼摄像头负责检测交通灯、道路障碍物和大多数近距离的目标。
三目视觉最大程度的模拟了人类双眼快速变焦,覆盖长短距范围的特性,但与此同时,却给软件和工程部门带来了巨大的挑战。
从软件层面,三目视觉脱离了单目视觉与数据库匹配的老路线,转向实时计算视差距离的路线,这就要求车辆具备更高的计算能力。Mobileye 在实验室里配备了 3 颗 EyeQ3 芯片分别处理三路图像数据。
考虑到特斯拉「轻雷达重摄像头」的路线,摄像头需要实时计算识别包括机动车、非机动车、摩托/自行车、行人、动物、道路标识、道路本身、交通灯、车道线等超过 90% 的环境信息,三路图像识别和融合的算法复杂度、要求的算力都翻倍增长。
三目视觉在工程层面的挑战远远大过了软件挑战。
尽管单目视觉需要对庞大的数据库进行更新和维护,但考虑到算法和工程方面的挑战,更接近人眼的双目视觉在未来五年内都无法战胜单目视觉成为主流。
而三目视觉,是全行业都未曾在量产车上应用过的方案,要在捉襟见肘的前挡风玻璃处集成三个摄像头、同时要考虑热胀冷缩带来的测距误差问题,在车规级制造工艺、成本、可靠性、精确性方面带来的挑战都是前所未有的。
考虑到特斯拉在 2016 年 10 月在自动驾驶软件和工程研发层面的积累相当薄弱(对比 Waymo、Velodyne、Mobileye 等),特斯拉走三目视觉的路线其实有些「初生牛犊不怕虎」的精神。
当然,挑战无疑是艰巨的,这或许可以解释 Autopilot 团队过去两年频繁的高管更迭。
Autopilot 9.0 版本
从上面那个视频中我们能看到,Autopilot 9.0 版本基本实现了高速/城际公路这种简单场景下的感知和融合路况信息、对路径进行规划与决策,最后完成控制与执行。
换句话说,这就是很原始的 L4 级自动驾驶技术 Demo。区别在于,其他公司的 L4 Demo 都在宣传片里,而特斯拉在量产车上实现了。这大概就是 Q2 财报会议上 Elon 向三位Autopilot 核心高管致谢的原因。
但必须要指出的是,Autopilot 9.0 版本的技术能力还存在巨大的提升空间,所能覆盖的场景也极其有限。事实上,特斯拉的态度也变得空前纠结。
一方面,因为比驾驶员更广泛的车身四周检测,Autopilot 已经避免了无数次事故的发生。YouTube 上有各种各样的 Autopilot 避险的视频。
另一方面。从 2016 年 5 月至今的数十起 Autopilot 致死案例,超过 90% 都是车主对Autopilot 的过度信任所致。在自动驾驶的控制与执行环节,特斯拉把算法做得非常平顺,这在某种程度上导致了 Autopilot 启用状态下的驾驶员会感到「无聊」,最后因疏忽导致意外发生。
从 9.0 开始,Autopilot 在接管了电门、刹车后已经在技术层面支持接管方向盘——自行变道。这可能导致更多意外的发生。
该如何解决这一问题呢?
除了对驾驶员注意力更加严格的监控,特斯拉在上次财报会议上首次提出了主动安全功能的 L4 的概念。
这里科普一下:主动安全功能和 L4 一个关键的区别在于主动安全功能驱动下的汽车主要责任人是驾驶员;而 L4 的主要责任人是自动驾驶系统。
在上次财报会议上,Autopilot 工程副总裁 Stuart Bowers 表示,特斯拉有信心在未来 6 - 12 个月内落地 L4 。
在 9.0 开始到 L4 全面实现的这段时间里,能力不断提高的 Autopilot 仍然有很多场景束手无策,却又可以给用户带来切实的行车安全性的提升。特斯拉只能强制用户作为第一责任人继续时刻注意前方路况。
6 - 12 个月是否过于乐观?需要指出的是,截至 6 月 19 日,特斯拉 Autopilot 2.0 车型保留量已经达到 20 万辆,累计路测数据达到 4 亿英里。由 AI 芯片驱动的 Autopilot 3.0 硬件将于明年量产上车,同时自 2016 年 10 月量产的 Autopilot 2.0 硬件的 Model S/X 和搭载Autopilot 2.5 硬件的 Model 3 都可以免费升级为 Autopilot 3.0 硬件驱动。
可以说 Autopilot 9.0 版本的发布,才算得上特斯拉真正涉入了 L4 级自动驾驶技术的研发;得益于过去两年在数据、芯片、AI 领域的战略部署,特斯拉一旦踏入 L4,就已经切入了快速发展的赛道。