本申请涉及计算机技术领域,提供一种图像生成方法及相关装置,用以生成图像质量,其中,该方法包括:首先,基于图像描述文本,分别提取出三类图像属性各自对应的文本特征,并利用噪声图像,初始化生成三类图像属性各自对应的初始特征;其次,利用三类图像属性各自对应的文本特征,分别对三类图像属性各自对应的初始特征进行特征提取,获得三类图像属性各自对应的中间特征,通过特征提取,提取出与图像描述文本相关的特征,达到去噪的效果;最后,基于三类图像属性各自对应的中间特征进行特征重构,来生成目标图像,从而减少各类图像属性的信息损失,提高生成图像的准确率。
背景技术
图像生成是指根据对象输入的内容(Content)、画风(Style)、质感(Quality)等至少一类图像属性,生成相应的图像。
相关技术中,在指定三类图像属性情况下,先根据某一类图像属性生成初始图像,再在初始图像中依次加入每类图像属性,从而生成满足三类图像属性的目标图像。然而,图像属性的逐一加入,需要对初始图像进行多次图像转换,而每次图像转换都可能丢失部分图像细节,影响生成的目标图像的准确性。
以输入目标内容、目标画风和目标质感为例。首先,基于目标内容进行文生图操作,生成包含目标内容的初始图像;接着,针对初始图像进行画风转换,生成目标画风对应的中间图像;最后,在中间图像的基础上,按照目标质感进行质感转换,生成目标图像。
由于画风转换和质感转换均可能对初始图像中的内容进行更改,因此,中间图像或者目标图像会丢失部分或全部目标内容,特别是在目标内容较为复杂的情况下,初始图像中包含较多的对象,而画风转换和质感转换会导致目标图像丢失细节,从而导致生成的图像的内容不准确。
实现思路