来源:天空软件网 更新:2023-09-14
用手机看
导语:本文作者为AIR-SUN团队,该团队是由清华大学智能产业研究院助理教授赵昊指导的计算机视觉团队,在三维场景理解,机器人等领域中广泛开展前沿领域探索研究,该团队最新提出的工作MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving在第三届国际人工智能会议(CICAI 2023)中取得了Best Paper Runner-up奖项。
MARS是全球首个开源的基于神经辐射场的自动驾驶仿真平台,通过利用真实数据进行训练,能够在仿真平台内提供极高真实度的仿真结果,对学术界还是工业界都具有极大的参考意义。
MARS链接:
https://open-air-sun.github.io/mars/
AIR-SUN链接:
https://sites.google.com/view/fromandto
以下为正文:
近日,Waymo为负责计算基础设施的团队设定了严格的数据上限,并强调:“当前需要关注的是自动驾驶数据质量而非数量,必须筛选出有保存价值的数据,舍弃无价值数据”。通用旗下的Cruise团队也公开表示,其在旧金山采集的数据中,仅不到1%被认为有用。
大部分普通数据无法为算法提供有效信息,已成为限制自动驾驶技术发展的重要影响因素之一。自动驾驶算法开发需要处理各类极限场景,然而在真实驾驶数据中,这类场景占比极小,这样的稀缺性导致自动驾驶算法难以应对突发危险场景,无法在紧急情况下做出及时有效的规避决策。如何解决自动驾驶算法所需的高质量训练数据稀缺问题,已经成为了行业关注的焦点。
为了挖掘更多有效场景,仿真开始受到越来越多的重视。在自动驾驶仿真平台上,企业为了算法开发和测试搭建虚拟环境,还原城市地图,模拟各路况、交通参与者与天气的复杂驾驶场景,并对参与者进行有效调整。
在当前数据有限的情况下,自动驾驶仿真在训练系统中至关重要,它可以生成大量实用数据,在各种复杂和极端环境下训练系统,填补真实驾驶数据无法采集各极限场景的不足。
然而,现有自动驾驶仿真平台多基于传统图形引擎和渲染框架开发,渲染真实度不足。虽能模拟各极限场景,但图片真实度限制了其在真实性能上的提升。下图展示了CARLA渲染的部分场景,可以发现这与自动驾驶所需的“真实感”仍有不小的差距。无法做到逼真的仿真,就无法利用仿真模拟得到的各类极限场景数据充分挖掘自动驾驶算法中的性能。
为了解决这个问题,神经渲染被引入仿真平台。目前,基于神经渲染开发的仿真平台,在图片的真实性上完全超越了基于传统图形引擎开发的仿真平台,与此同时,其在物理仿真与场景编辑方面也迎来了迅猛的发展。
在2020年神经辐射场的概念和方法被提出后,国内外自动驾驶顶尖团队都投入到基于神经渲染方法构建驾驶仿真平台的研究中。其中,最具代表性的为Google旗下Waymo团队的Panoptic Neural Field与自动驾驶世界学术先驱Raquel Urtasun带领的Wabbi团队的UniSim。
由于自动驾驶仿真平台的最终目的是模拟大量现实中无法复现的极限场景,基于神经渲染的仿真器所得到的高度真实感场景也为自动驾驶算法训练数据带来了新的可能性。一个成功的仿真平台能提供有效的自动驾驶训练数据,为自动驾驶公司带来重要的开发优势,具有极高的商业价值,因此Google与Wabbi都未开源他们的自动驾驶仿真平台算法。
然而,这些方法在整合前景和背景方面存在性能的不足,无法充分利用车辆的先验信息以在自动驾驶场景中创建逼真的场景。同时,这些方法没有使用现代模块化的架构设计,限制了它们在工程项目中的实际应用。
1
—
MARS算法解读
1、场景表示
对于给定场景,MARS分别建模背景结点与前景实例结点。具体来说,给定一条光线,我们首先计算所查询的光线与所有可见实例边界框的光线框交集,用于区分背景与前景结点。对于背景结点,我们直接使用选定的场景表示模型和选定的采样器来计算每个采样点的属性,就像传统NeRF中一样。对于前景结点,光线首先像通过前景节点表示进行处理之前一样转换为实例帧。最后,我们再对背景与前景结点分别训练的光线进行聚合与渲染,通过不同的输出通道,我们看可以得到不同的结果。
2、组合渲染
我们的仿真器通过使用独立的网络分别对场景中的前景实例与背景环境进行建模,以便可以单独编辑物体的静态(例如大小和外观)和动态(例如轨迹)属性。这就使我们的模拟器支持物体级别的场景编辑,能够进行交互编辑,如删除、添加或编辑车辆实例的运动等,从而模拟现实中难以复现的大量corner case,为自动驾驶开发算法提供相应的训练数据。下图为我们对场景进行编辑的部分结果。
3、类别级物体模型
我们的仿真器允许在不同的神经渲染主干网络、采样策略之间灵活切换,即可以支持各种NeRF主干与采样策略,对于前景与背景我们可以采用不同的框架进行训练,这种模块化设计为我们的仿真平台应用最新的相关成果提供了极大的便利。我们需要注意到,静态背景与动态前景往往具有不同的属性,而大多数现有方法针对两者使用统一的框架,这很有可能导致选用的框架在实现相关功能时的trade off。
对于物体结点,我们使用了基于隐式编码的类别级别物体模型,这一模型允许我们在场景中通过选取不同的隐式编码来编辑场景中物体的外观。
4、真实感渲染
a.天空模型
在MARS中,我们使用天空模型来处理无限距离处的外观,即利用基于 MLP 的球形环境贴图来建模与场景中其他不透明区域不相交的无限远区域。并且我们引入BCE正则化来缓解将天空颜色与背景和前景渲染直接混合导致的不一致问题:
b.采样策略
由于我们的背景和前景采样是独立完成的,因此背景样本有可能落入前景边界框内。此时进行合成渲染可能会错误地将前景样本分类为背景,从而导致在移除前景实例后,背景区域将出现伪影。理想情况下,有了足够的多视图监督信号,系统可以在训练过程中自动学习区分前景和背景。然而,对于仿真平台的训练数据而言,随着车辆在道路上快速移动,我们难以获取丰富且高质量的多视角图像。为了解决这个问题,我们设计了一个正则化项,用于最小化背景截断样本的密度和,从而最小化它们在渲染过程中的影响,其中
表示背景截断样本。
5、优化
我们的损失通过以下公式进行计算,其中λ代表系数,此外我们分别介绍了我们对RGB,深度以及语义信息进行的损失计算方法。
2
—
实验结果
1、实验设置
我们在KITTI数据集和Vitural KITTI-2数据集的场景上定量地评估我们的方法。我们的默认实验设置采用使用propose sampler的Grid-Based NeRF作为背景结点的主干网络,使用coarse to fine的catagory-level方法用于表示前景结点。
2、实验结果
我们将我们的方法与现有的SOTA方法进行比较,在Reconstruction与Novel View Synthesis两个任务中,我们均取得了优于以往工作的结果。
3、定性展示
以下图片展示了我们的方法在不同数据集上进行定性实验的结果,相比于其他方法在处理动态场景时会出现的伪影等情况,我们的方法稳定地将前景与背景进行合成。
3
—
总结
我们希望MARS的开源能够鼓励更多的研究者和开发者参与到自动驾驶仿真平台的建设和开发中来。我们相信,借助MARS这一高度真实、灵活且开源的仿真平台,自动驾驶技术的发展将更加迅速,更加安全。这将会是对整个自动驾驶行业的推动。
总的来说,自动驾驶的发展离不开大量、高质量的训练数据。而MARS作为首个开源的基于神经辐射场的自动驾驶仿真平台,通过对场景进行训练,能够实现对场景的编辑以及模拟现实中难以复现的极端场景,对自动驾驶算法的发展起到了至关重要的推动作用。