本技术公开了一种交互便捷的多功能图像生成方法,包括:接收输入的图像生成控制条件并预处理;图像生成控制条件包括:文本提示、实体条件图和背景图;通过生成模型对初始噪声图像进行全局引导去噪,获得噪声图像;利用生成模型中的交叉注意力图实现局部控制区域的自适应定位;根据定位后的局部控制区域,对预处理后的实体条件图和背景图进行多层次特征融合,获得多模态编码特征;将多模态编码特征通过视觉控制适配器获得视觉控制特征,与生成模型中的全局中间层特征,共同引导生成模型对噪声图像进行去噪,实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题,显著提升了多模态图像生成的性能和用户体验。
背景技术
随着深度学习技术的不断发展,生成式人工智能(AIGC)的研究得到了密切的关注。在AIGC领域中,文本到图像合成技术成为了研究热点。Stable Diffusion是一种基于扩散过程的图像生成模型,Stable Diffusion的出现使得人们可以通过输入文本提示即可合成一张与文本语义相关的高清图像,该技术目前被广泛应用于艺术创作、广告设计等方面。对于日益增长的用户需求,人们逐渐希望能够以更多不同形式的输入、更加灵活便捷的方式得到自己想要的图像生成效果。
现有的基于扩散模型的研究中,如Imegen、Stable Diffusion和DALL-E等彻底改变了文本到图像的生成任务。这些模型擅长生成高质量的图像,但往往缺乏对生成内容更精细的控制。为了解决这一局限性,研究人员探索了各种方法来增强用户对生成式人工智能的控制效果。其中一种解决方法是基于文本驱动的控制方法,如调整文本提示(prompt)或调整交叉注意力图对最终生成图像的作用。
而可控图像生成的另一种解决方法是结合额外的输入模态信息,如草图或布局信息等。Layout Guidance Diffusion利用用户定义的标记和边界框来引导交叉注意力分数在指定区域分布,从而间接控制实体生成位置。文生图模型eDiff-I则通过计算目标草图和中间模型特征之间的相似性梯度从而对生成的图像施加结构约束。文生图算法ControlNet通过对冻结预训练生成模型添加额外的条件编码网络,从而通过特定的条件来引导图像生成。而T2I-Adapter则引入了一个轻量级适配器,将文本到图像模型的内部知识与外部控制信号相结合。
目前有些发明将ControlNet应用于各个实际领域以进行更精细更灵活的图像生成控制。申请号为CN202311827908.5的专利申请提出了一种图像生成的控制方法及系统,该方法基于ControlNet将边缘线图转换成接近真实的图像,通过这种方法来解决传统GANs模型的缺乏灵活性、精确性和通用性以及难以满足用户定制等问题。申请号为专利CN202311646175.5的专利申请提出了一种基于扩散模型和ControlNet的姿态生成方法,该方法可通过输入人体姿态节点从而生成符合某种姿态的人类图像。申请号为专利CN202311183764.4的专利申请提出了一种基于生成式人工智能技术的图像处理方法及装置,该发明在技术上使用SAM对图像中的人或物进行了分割后,通过图像修复的方式进行图像重绘以达到修改背景或特定位置内容的效果。
然而,上述方法仍存在亟待解决的问题,其严重影响了图像生成的质量和用户体验:
(1)交互不便捷。现有研究对这一问题的关注不足,尤其是在基于 ControlNet 或T2I-Adapter 的方法中,用户需要提供场景级别的视觉条件,这对于用户来说操作难度较大。在复杂的多实体场景中,用户所提供的条件信息不仅需要在位置上高度精确,还要求不同模态条件之间一一对应,这种方式不仅耗时,且难以确保生成出理想的效果。
(2)生成图像质量差。当图像生成模型涉及多模态输入时,由于模型网络结构的局限性或训练过程中的不足,模型往往难以在不同模态对图像生成的影响之间实现平衡。而在实际应用中,用户通常期望图像模态作为文本信息的补充,而图像的主要语义信息仍然由文本主导。然而,ControlNet 或 T2I-Adapter 的方法往往过于关注图像模态的布局信息,忽略了文本的语义信息,从而导致生成图像的质量欠佳。
(3)功能单一。当前多数基于视觉控制的图像生成方法中,视觉条件的种类相对单一,训练后的模型通常只能处理某一种类型的视觉输入,这极大限制了模型的生成能力和灵活性。
因此如何解决上述现有的图像生成技术中存在的问题,是提升图像生成质量和用户体验的关键。
实现思路