本技术涉及机器学习领域,具体为基于生成对抗网络数据解耦的数据平衡去毒方法,对数据集进行降维映射和聚类分析,得到若干数据聚类;对每个数据聚类加入对抗扰动,生成对抗数据聚类;对每个对抗数据聚类进行转移率计算和中毒样本去除,得到去毒数据聚类,并将所有去毒数据聚类组合为去毒数据集;对去毒数据集进行数据解耦和平衡处理,得到平衡数据集;基于平衡数据集,对待去毒模型进行微调训练,从而得到去毒模型。本发明能够减少训练数据的中毒样本,避免模型训练过程中学习拟合后门触发器的特征,提高模型后门攻击防御效果的稳定性和模型在实际应用中的可靠性。
背景技术
随着深度神经网络模型DNN在计算机视觉等领域的广泛应用,模型的安全性问题日益受到关注。后门攻击成为模型的一种严重威胁方式,后门攻击通过在模型训练阶段植入后门触发器,使得模型在预测节点当后门触发器出现时产生错误分类。后门攻击的隐蔽性极强,对模型的正常功能没有明显影响,一旦后门触发器出现就会产生预设的错误输出,从而达到攻击者的目的。
现有的后门防御主要包括对抗训练、模型修复和异常检测,这些方法在实际应用中都存在计算成本高、对攻击方式依赖性强、误检率高等问题。另外其他后门防御方法,如基于模型微调和特征分离的后门防御方法,虽然能够在一定程度上提高模型的鲁棒性,但其计算复杂度较高,导致训练时间长,消耗大量计算资源;还有如基于静态特征分析的后门防御方法,依赖对特定特征或模式的检测,容易被攻击者绕过,无法识别动态变化的后门攻击,导致后门攻击识别精度不高。因此,如何减少训练数据的中毒样本,避免模型训练过程中学习拟合后门触发器的特征,对提供更有效和更普适的后门攻击防御方法具有十分重要的意义。
实现思路