本技术公开了一种基于对抗提示挖掘的文生图模型安全性提升方法及装置,方法包括:预定义若干个可优化的噪声嵌入作为优化目标,并利用最近邻搜索方法在嵌入空间中获取噪声嵌入最接近的代理嵌入,并拼接到干净嵌入的尾部,获得对抗嵌入,利用CLIP模型中的文本编码器编码对抗嵌入提取对抗提示的特征;利用图文匹配目标函数,最大化对抗提示特征与风险目标图像特征语义相似度,建立对抗提示与风险目标图像间的关联关系;在利用目标函数反向优化噪声嵌入过程中,将代理嵌入对应的梯度传递给噪声嵌入构建优化过程,实现基于梯度的噪声嵌入连续优化;优化结束后,在单词搜索空间中查询与噪声嵌入最匹配的单词,并拼接到干净提示后生成最终的对抗提示。装置包括:处理器和存储器。
背景技术
近些年,文生图模型[1-3]
通过利用输入的文本提示生成多样的、高质量的图片,受到了研究人员以及社区用户的广泛关注。几个代表性的商业产品,例如:DALL·E 3[4]
、Midjourney[5]
、Stable Diffusion[6]
等已经被广泛地应用在内容生成、艺术创作以及市场营销等各种领域。但广泛的应用也会引起了人们对于文生图模型滥用、误用的担忧,例如:利用文生图模型生成一些风险有害图片,对信息的传播造成负面影响。因此,对于文生图模型研发安全防护措施来防止有害图片的生成变成了一个紧急的任务[7-8]
。研究人员也在这个领域做出了持续的努力来改善生成图片的安全性。例如:DALL·E 3和Midjourney分别部署了图片审核器来识别生成的有害图像。然而,这些图片审核器通常仅在有限的真实图片中进行训练,很难有效检测多样化的生成图片[9]
。
为了缓解这个问题,现阶段文生图更多依赖于审核输入的文本提示来保障生成的图像的安全。然而,这些防护措施仍然存在漏洞,恶意用户可以利用对抗提示(特指不包含有害单词的文本提示),诱导图像生成风险图像,严重威胁了文生图模型的安全[10-11]
。
为此,有必要对文生图模型的安全性漏洞进行研究,探究如何在文本提示不包含目标单词的情况下,诱导生成风险图片,进而利用这些对抗提示来进一步保障模型安全。
实现思路