一种交互便捷的多功能图像生成方法

123技术园

首页 / 技术内容

一种交互便捷的多功能图像生成方法

2025-02-22 08:35

No.1342776827407769600

技术概要

PDF全文

本技术公开了一种交互便捷的多功能图像生成方法，包括:接收输入的图像生成控制条件并预处理；图像生成控制条件包括：文本提示、实体条件图和背景图；通过生成模型对初始噪声图像进行全局引导去噪，获得噪声图像；利用生成模型中的交叉注意力图实现局部控制区域的自适应定位；根据定位后的局部控制区域，对预处理后的实体条件图和背景图进行多层次特征融合，获得多模态编码特征；将多模态编码特征通过视觉控制适配器获得视觉控制特征，与生成模型中的全局中间层特征，共同引导生成模型对噪声图像进行去噪，实现图像生成。该方法解决了多模态图像生成领域中交互不便捷、图像质量差以及功能单一的问题，显著提升了多模态图像生成的性能和用户体验。

背景技术

随着深度学习技术的不断发展，生成式人工智能（AIGC）的研究得到了密切的关注。在AIGC领域中，文本到图像合成技术成为了研究热点。Stable Diffusion是一种基于扩散过程的图像生成模型，Stable Diffusion的出现使得人们可以通过输入文本提示即可合成一张与文本语义相关的高清图像，该技术目前被广泛应用于艺术创作、广告设计等方面。对于日益增长的用户需求，人们逐渐希望能够以更多不同形式的输入、更加灵活便捷的方式得到自己想要的图像生成效果。现有的基于扩散模型的研究中，如Imegen、Stable Diffusion和DALL-E等彻底改变了文本到图像的生成任务。这些模型擅长生成高质量的图像，但往往缺乏对生成内容更精细的控制。为了解决这一局限性，研究人员探索了各种方法来增强用户对生成式人工智能的控制效果。其中一种解决方法是基于文本驱动的控制方法，如调整文本提示（prompt）或调整交叉注意力图对最终生成图像的作用。而可控图像生成的另一种解决方法是结合额外的输入模态信息，如草图或布局信息等。Layout Guidance Diffusion利用用户定义的标记和边界框来引导交叉注意力分数在指定区域分布，从而间接控制实体生成位置。文生图模型eDiff-I则通过计算目标草图和中间模型特征之间的相似性梯度从而对生成的图像施加结构约束。文生图算法ControlNet通过对冻结预训练生成模型添加额外的条件编码网络，从而通过特定的条件来引导图像生成。而T2I-Adapter则引入了一个轻量级适配器，将文本到图像模型的内部知识与外部控制信号相结合。目前有些发明将ControlNet应用于各个实际领域以进行更精细更灵活的图像生成控制。申请号为CN202311827908.5的专利申请提出了一种图像生成的控制方法及系统，该方法基于ControlNet将边缘线图转换成接近真实的图像，通过这种方法来解决传统GANs模型的缺乏灵活性、精确性和通用性以及难以满足用户定制等问题。申请号为专利CN202311646175.5的专利申请提出了一种基于扩散模型和ControlNet的姿态生成方法，该方法可通过输入人体姿态节点从而生成符合某种姿态的人类图像。申请号为专利CN202311183764.4的专利申请提出了一种基于生成式人工智能技术的图像处理方法及装置，该发明在技术上使用SAM对图像中的人或物进行了分割后，通过图像修复的方式进行图像重绘以达到修改背景或特定位置内容的效果。然而，上述方法仍存在亟待解决的问题，其严重影响了图像生成的质量和用户体验： (1)交互不便捷。现有研究对这一问题的关注不足，尤其是在基于 ControlNet 或T2I-Adapter 的方法中，用户需要提供场景级别的视觉条件，这对于用户来说操作难度较大。在复杂的多实体场景中，用户所提供的条件信息不仅需要在位置上高度精确，还要求不同模态条件之间一一对应，这种方式不仅耗时，且难以确保生成出理想的效果。 (2)生成图像质量差。当图像生成模型涉及多模态输入时，由于模型网络结构的局限性或训练过程中的不足，模型往往难以在不同模态对图像生成的影响之间实现平衡。而在实际应用中，用户通常期望图像模态作为文本信息的补充，而图像的主要语义信息仍然由文本主导。然而，ControlNet 或 T2I-Adapter 的方法往往过于关注图像模态的布局信息，忽略了文本的语义信息，从而导致生成图像的质量欠佳。 (3)功能单一。当前多数基于视觉控制的图像生成方法中，视觉条件的种类相对单一，训练后的模型通常只能处理某一种类型的视觉输入，这极大限制了模型的生成能力和灵活性。因此如何解决上述现有的图像生成技术中存在的问题，是提升图像生成质量和用户体验的关键。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

李珂陈志鹏陈卓杨兰张洪刚宋一晢

技术所属：北京邮电大学

相关技术

变压器呼吸器变色检测方法、装置、系统及电子设备  变压器呼吸器变色检测方法、装置、系统及电子设备 
 本发明实施例提出一种变压器呼吸器检测方法、装置、系统及电子设备，属于图像检测领域。方法包括:检测出待测的变压器呼吸器的原始图像中的硅胶框，得到硅胶图像；利用像素检测模型对硅胶图像进行逐像素检测，得到与硅胶图像的像素点一一对应的多个像素检测结果；依据多个像素检测结果，获得硅胶图像的检测特征值，进而依据检测特征值，获得变压器呼吸器的变色检测结果。如此，先检测出原始图像中的硅胶框，并逐像素地进行局部细致检测，从而能够检测出硅胶区域(即硅胶框内)的每个像素点是否变色，同时排除了非硅胶区域的干扰，大大提高了检测精度，从而提高了变压器呼吸器的变色检测结果的正确率。
基于机器视觉和AR的虫害检测与管理系统  基于机器视觉和AR的虫害检测与管理系统 
 本发明属于图像处理技术领域，具体涉及基于机器视觉和AR的虫害检测与管理系统。所述系统包括:图像获取部分，用于获取目标农作物的超分辨率图像和光谱图像；对超分辨率图像和光谱图像分别进行图像预处理；图像区域提取部分，用于从预处理超分辨率图像中识别出目标农作物的叶片区域和茎秆区域；虫害判断部分，用于对光谱图像中的叶片区域和茎秆区域进行光谱分析；虫害分析部分，用于在判断结果为真的情况下，从预处理超分辨率图像中叶片区域；AR显示部分，用于在AR设备中显示目标农作物的病虫害区域。本发明实现了对农作物病虫害的自动识别和实时监测。结合先进的图像处理和机器学习算法，能够快速准确地提取特征、分析病虫害情况。
一种电路板的故障快速检测方法、系统及存储介质  一种电路板的故障快速检测方法、系统及存储介质 
 本发明公开了一种电路板的故障快速检测方法、系统及存储介质，涉及电路板的技术领域，其中视觉检测模块通过红外摄像头捕捉电路板图像，并利用图像处理技术划分检测区域，识别钻孔程度和判断通过孔是否偏离，从而进一步分析通过孔偏离对电路板性能造成的影响，信息采集模块对孔内壁进行检测和记录，获取相关残留材料信息，同时监测电路板的性能变化信息和热分布状态信息，为后续的故障综合分析提供全面的数据支持；故障综合分析模块对数据检测集进行特征提取，并通过训练后的故障检测模型计算得到故障评估指数Gpzs，实现对电路板故障的综合评估和分析，通过对故障评估指数Gpzs与故障阈值W进行对比分析，得出故障评分报告，采取相应的分拣作业。
遥感影像检测方法、装置、电子设备及存储介质  遥感影像检测方法、装置、电子设备及存储介质 
 本发明提出一种遥感影像检测方法、装置、电子设备及存储介质，属于图像处理领域，解决了现有的遥感影像目标检测的检测速度慢、准确率低的问题。方法包括:对遥感图像进行裁剪，得到多张待测图像；针对每张待测图像，采用预先训练的目标检测模型，得到待测图像中的目标框；依据待测图像对应的裁剪位置，将带有目标检测结果的各待测图像进行拼接，得到已测图像；对已测图像中的目标框去重，得到遥感图像的检测结果。本发明减小了模型处理单张图像时的数据量，缩短检测时长，且通过模型检测和目标框去重，排除掉了更多的外部干扰，从而提高检测速度和准确度。
一种基于在网计算的流表压缩方法  一种基于在网计算的流表压缩方法 
 本发明公开了一种基于在网计算的流表压缩方法，属于软件定义网络技术领域。针对在软件端侧聚合方法的不足和软件端侧处理流量能力不足的问题，通过1.设置并初始化流表规则，经过二叉树结构分解成互不重叠的规则；2.将互不重叠的规则压缩成可以进行算术运算的表达式规则，并将表达式规则部署在网络可编程交换机；3.在该网络可编程交换机内利用表达式规则匹配网络流量，并依照表达式规则的动作字段转发网络流量到相应的目的地址。本发明利用网络可编程交换机的算术计算功能，和软件侧压缩的表达式流表，实现网络处理大规模流量并转发的功能，减少了网络可编程交换机存储的流表数量，有效降低存储开销，提高了网络通信效率。
一种基于分段信道估计的通感一体化系统干扰消除方法  一种基于分段信道估计的通感一体化系统干扰消除方法 
 本发明公开了一种基于分段信道估计的通感一体化系统干扰消除方法，步骤为:建立无蜂窝协作通感一体化系统的信道模型和数据传输模型，通过所有用户发送上行导频，中央处理器CPU估计出用户与接入节点AP之间的数据传输信道；通过所有下行接入节点AP发送目标检测信号，所有上行接入节点AP联合接收信号，中央处理器CPU检测感知目标是否在场景中；通过所有下行接入节点AP发送下行导频，中央处理器CPU得到接入节点AP之间的交叉链路干扰信道的估计；系统同时进行上下行通信和对目标移动方向和速度的感知，并基于信道估计结果，对接受到的通信和感知信号分别进行干扰消除处理。本发明能够有效地直接抑制系统干扰，提升通信和感知性能。
一种基于上半身姿态的驾驶员情绪状态检测方法及系统  一种基于上半身姿态的驾驶员情绪状态检测方法及系统 
 本发明公开了一种基于上半身姿态的驾驶员情绪状态检测方法及系统，涉及计算机视觉技术领域，包括:基于预设人体姿态估计模型识别待检测驾驶员的上半身视频片段中的人体关键部位，得到各关节位置的时间序列；对关节位置时间序列进行预处理，转化成关节流数据和骨骼流数据；分别将关节流和骨骼流数据输入到多个经过训练之后的图卷积神经网络模型，得到多个分类结果；基于集成学习方法融合多个分类结果，得到待检测驾驶员的情绪状态识别结果。本发明缓解了现有技术中存在的在驾驶环境下的动作情绪识别准确率较差的技术问题。
一种引入RBU的轻量化皮革表面缺陷显著目标检测方法  一种引入RBU的轻量化皮革表面缺陷显著目标检测方法 
 本发明提出一种引入RBU的轻量化皮革表面缺陷显著目标检测方法，获取皮革表面图像，对其进行预处理；利用模型RBU＆lt;supgt;2＆lt;/supgt;Net对预处理后的图像进行目标检测。本发明提出残差瓶颈U型块作为特征提取单元，融合了深度可分离卷积和通道注意力的性能优势，在一定程度上解决了工业生产线上的自动化皮革缺陷检测存在计算设备受限的困境。通过在模型中引入临近特征增强模块，强化模型对于多尺度特征的融合能力，优化目前在皮革检测领域无法准确刻画缺陷形状的情况。另外，还引入像素混合采样提高了特征信息利用率，增强模型的空间感知能力，使其在检测具有种类繁多、缺陷形状无规则、尺度变化范围大等皮革表面缺陷时，提升皮革检测的精确度。
一种基于金字塔的SAR图像相干斑抑制方法  一种基于金字塔的SAR图像相干斑抑制方法 
 本发明给出一种基于金字塔的SAR图像相干斑抑制方法。首先，将四种不同的残差模块级联成的残差块加到噪声估计的阶段，可以更充分地利用不同深度的残差模块对特征信息的提取，来促进学习过程；然后，采样多尺度的特征信息得到一个五级金字塔，可充分利用不同尺度的感受野以提取到多样化的、不同尺度空间的特征信息；最后，利用得到的多尺度特征信息进行融合、去噪，得到去噪后的图像，上下文信息对去噪后的图像保留细节信息有帮助。本发明利用四种不同的残差模块级联成的残差块和基于金字塔的思维对SAR图像进行多尺度特征提取、融合和去噪，实现了对真实SAR图像的去噪，并有效地保留图像去噪后的细节特征，显现了优异的去噪性能，具有广泛的适用性。
一种考虑多层级特征的多类别点云异常检测方法及系统  一种考虑多层级特征的多类别点云异常检测方法及系统 
 本发明属于三维检测相关技术领域，其公开了一种考虑多层级特征的多类别点云异常检测方法及系统，方法包括:提取训练用点云数据的多维特征，获得局部特征和全局特征；对全局特征进行聚类获得多个聚类中心，组成类别记忆库；在类别记忆库中获得与每个训练用点云数据的全局特征距离最近的聚类中心作为该目标聚类中心，提取集合的核心集作为子记忆库；利用待测点云数据的全局特征获得对应的目标子记忆库，而后利用待测点云数据的局部特征在目标子记忆库中查找距离最近的目标特征；计算待测点云数据的局部特征与目标特征之间的距离获得异常分数，依据异常分数判断待测点云数据的异常情况。本申请解决了多类数据相似导致的特征混淆问题的技术问题。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工