本技术涉及一种多模态融合模型的对抗样本生成技术及其设备。该技术通过捕获多模态图像,并将这些图像输入至多模态融合模型以产生初始融合图像。所涉及的多模态图像由多个单模态图像组成,这些单模态图像通过特定的融合策略结合,以增强模型对不同模态数据的理解和处理能力。
背景技术
深度神经网络(DNNs)在多种视觉任务上取得了非常显著的性能提升,因此,他们的安全性也得到了越来越多的关注。目标检测作为计算机视觉任务中最基础的任务之一,被广泛应用在大量的场景中,包括视频监督、自动驾驶和人机交互等,调研目标检测模型的潜在风险已经日渐变成了一个至关重要的任务。先前的工作已经揭露出现存的基于深度神经网络的检测器很容易受到对抗样本的扰动,这对于部署该类型的目标检测器到安全要求高的系统中无疑是一个潜在的巨大安全风险,对抗攻击方法是检验模型鲁棒性和安全性的一个重要手段。
目前,通过在整个可见光照片中添加人眼看不见的轻微扰动来产生对抗样本是较为通用的方法;这样方法虽然很有效,但是这些扰动在现实世界中是无法实现的,因为攻击照片中的每一个像素是不可能做到的事情。为了增强对抗攻击的可行性,基于补丁的攻击方法被提出,这种方法只攻击像素聚集的一小块区域;在基于补丁的攻击方法中,通过将产生的对抗补丁注入到图像中达到误导深度网络模型的效果。近期的调查表明,对抗补丁隐蔽性高并且在现实世界中可以实现;例如Patch-fool通过在可见光图像上添加一小块补丁就可以误导多种视觉任务中的ViTs(Vision Transformer)做出错误的判断;Invisible-Cloak在衣服上面打印事先准备好的图案可以让检测器忽视衣服的穿戴者;NaturalisticAttack可以让被检测人员手持事先打印的照片而被检测器忽视;上述方法在一定程度上可以检测模型的鲁棒性和安全性,但是目前比较成熟的对抗攻击手段是单模态攻击,即单模态攻击通常使用可见光图像作为攻击目标,通过扰动目标图像的像素或者注入补丁产生对抗样本,这种攻击方法要求被攻击对象具有比较明显的纹理信息,对像素扰动或者补丁攻击比较敏感;从而导致单模态攻击的方法往往只能应用在能见度很高的情况中,在大雾情况或者夜晚等能见度低的环境中效果很差。因此,单模态攻击无法应对复杂多变的现实环境。
为了解决单模态攻击存在的问题,多模态融合检测引起了关注,相对应的对抗攻击方法也应运而生,例如Unified-Attack同时攻击可见光和红外图像。目前,多模态攻击方法基于单模态攻击扩展而来,其虽然可以同时攻击多个模态,但是现有的多模态攻击方法将多个单模态独立对待,分别针对每一个模态进行攻击,即每一个模态采用单独的对抗样本,其并没有考虑模态之间的信息交互,忽略了模态之间的交互性,导致对抗训练后的模型性能不佳。因此,如何提高多模态融合模型在对抗攻击中的鲁棒性和安全性是亟待解决的技术问题。
实现思路