本技术涉及人工智能及计算机视觉安全领域,具体为一种基于风格抑制和频域限制的语义攻击方法。所述方法包括:向良性样本添加微小噪声生成初始对抗样本,计算该样本与良性样本的语义相似度以获得语义损失;将初始对抗样本输入自适应实例规范化层,使用参考样本进行风格转换,生成风格化对抗样本,并计算风格抑制损失;通过离散小波变换对风格化对抗样本进行频率分解,得到低频和高频分量,计算二者之间的频率差异,获得频率损失;结合风格抑制损失与频率损失生成总体损失,基于总体损失优化对抗样本,生成最终优化的对抗样本。本发明能够提升对抗攻击的稳定性和有效性,对神经网络模型具有较好的欺骗效果。
背景技术
随着深度学习技术的快速发展,神经网络已广泛应用于图像分类、语音识别、目标检测等领域。然而,神经网络的鲁棒性问题逐渐暴露,尤其在对抗样本攻击方面,存在较大的安全隐患。对抗样本攻击通过在输入样本中添加微小扰动,使模型的输出发生显著偏差,从而导致误判。传统的对抗攻击大多依赖于扰动方向的选择,攻击效果不够稳定且容易被人眼察觉,难以实现高隐蔽性和稳定性的要求。
现有的语义攻击方法往往未能区分图像的风格特征和内容特征,导致生成的对抗样本在视觉上容易被察觉,影响了对抗攻击的隐蔽性与稳定性。另一方面,传统对抗样本生成方法的扰动大多出现在频率较低的分量中,更易被人类视觉系统(HVS)检测到,从而限制了其在实际应用中的有效性。因此,迫切需要一种能够在不依赖特定扰动方向的前提下,通过对样本的风格和频率分量进行有效控制,以提升对抗样本的隐蔽性和攻击稳定性的对抗攻击方法。
实现思路