本技术揭示了一种创新的防御机制,旨在抵御对抗性补丁攻击。该方法依托于掩码重构技术,凭借其卓越的特征提取能力,通过精心设计的对抗性掩码生成策略和-分类重构联合训练流程,构建了一套有效的防御体系。
背景技术
随着深度学习技术的不断演进,基于深度学习的图像识别模型已广泛应用于自动驾驶、智能安防、智能零售等多个领域。然而,随着深度学习图像识别模型在实际落地应用中的普及,各类针对其的攻击手段也愈发暴露出新的安全问题。其中,对抗补丁是一种通过在特定形状的小块图案(补丁)上添加精心设计的扰动噪声,致使图像识别系统产生错误的分类结果的攻击手段。对抗补丁因其局部性和可见性特征,可以在物理世界中有效部署。例如,有研究表明,将对抗补丁置于交通标志牌上,在不遮挡原有交通标志图案的情况下,即可导致车交通标志的误判;制作眼镜形状的对抗补丁并佩戴,可以欺骗真实的人脸识别系。因此,缓解对抗补丁威胁、提升模型决策的鲁棒性,是确保图像识别模型在真实场景中安全应用的关键前提。
现有对抗补丁防御方法存在如下技术问题:
1、现有方法普遍依赖于对对抗补丁攻击的先验知识,如补丁的具体形状、大小等信息,使得防御手段仅能防御特定形式的攻击,而无法有效应对那些偏离预期或新型的攻击方法,缺乏灵活性和普适性。
2、现有防御方法往往需要对推理流程进行修改,这不仅增加了系统的计算开销,还会显著降低推理速度。在实时性要求严苛的应用场景中,这种方法的实用性受到严重制约,难以满足对快速响应的需求。
3、许多现有方法还涉及对模型结构的调整,这意味着它们无法直接应用于已经训练完成的图像识别模型,需要进行重新训练、参数调整等繁琐步骤,大幅增加了应用成本和操作复杂性。
4、现有方法在提升模型对对抗补丁的鲁棒性的同时,会引入额外的噪声或导致模型与对抗补丁过拟合,削弱了模型对正常样本的准确识别能力,损害模型原有的识别精度。
实现思路