本技术介绍了一种利用扩散模型实现道路场景视频仿真的方法。该方法整合了自动驾驶仿真软件的数据合成技术与视频仿真算法,能够将仿真软件生成的视频内容转换为具有高逼真度和动态效果的画面。
背景技术
基于深度学习的自动驾驶技术研究日益依赖于大规模且高质量的道路场景视频训练数据。但在现实世界中采集并标注真实道路视频数据以构建训练数据集的成本非常高昂,且难以复现某些对训练有较大帮助的事故场景。仿真软件的出现可以部分弥补这一不足,例如基于游戏引擎Unreal Engine的自动驾驶仿真软件Carla,能够在用户控制下模拟各种驾驶场景并产生多种模拟传感器的合成数据。但是这类合成数据与真实数据相比存在明显的差异,包括视觉质感差异、数据分布差异等。这导致自动驾驶算法在采用合成数据进行训练后,难以适应真实场景。而拟真数据是指通过拟真处理缩小了与真实数据之间差异的合成数据。拟真数据的使用可以使自动驾驶算法更好地适应真实场景,并表现出与完全使用真实数据进行训练时相近甚至更优的性能。因此,拟真数据生成方法被认为是一种解决真实数据匮乏问题的有效途径,已在自然语言处理和计算机视觉领域中广泛应用。
基于扩散模型的拟真视频数据生成方法主要包括2类,一类基于视频生成模型,一类基于图像生成模型。使用视频生成模型的方法,其生成的拟真视频具有帧间一致性高、视频动态连贯的优点,但受限于现有计算机的性能瓶颈,无法生成长时间的视频。基于图像生成模型的方法,其生成的单帧图像质量好,可控性强,但多帧图像之间的语义一致性和动态连贯性不足。同时,这两类基于生成式模型的方法都面临严重的“幻觉”问题,即视频中常出现不符合物理世界规律或违背人类认知的现象。
上述问题使得当前仍然缺乏适用于道路场景的拟真视频数据生成方法,在此背景下,本发明提出了一种结合自动驾驶仿真软件和生成式模型的拟真视频数据生成方法:首先使用自动驾驶仿真软件采集合成视频数据及相应标注,然后使用结合了图像生成模型和拓展自注意力模块的视频拟真算法将合成视频转换为拟真视频,在保留其内容和结构信息的同时,降低其与真实视频的域差异,最后结合仿真软件中采集的标注数据,构成拟真视频数据集。
实现思路