一种基于稠密语义相似度的图像部件分割方法及系统
2025-02-22 12:27
No.1342835318407307264
技术概要
PDF全文
本技术公开了一种基于稠密语义相似度的图像部件分割方法及系统,包括以下步骤:收集图像数据,将收集的图像数据作为基础图像数据集的数据;使用目标框选定目标图像中的物体;分别提取目标图像以及基础图像数据集的图像特征,得到图像的全局特征与描述子;计算每个目标图像全局特征与所有基础图像全局特征的稠密语义特征相似度,获得最相似基础图像;计算目标图像描述子与最相似基础图像的基础图像描述子稠密语义特征相似度,获取基础图像物体与目标物体之间部件的相似度,并根据相似度分割目标物体的部件。本发明对未见过的物体进行部件分割,提高物体部件语义分割的效果,降低对数据集的需求,有广泛的应用价值用。
背景技术
随着互联网技术的发展和智能数码产品的普及,在生活生产中的图像数量急剧增长,人们需要对不断出现的图像进行分析来满足现实生活中的需求。在机器人控制、图像编辑、图像生成应用中,仅仅进行对象级别的感知是不够的,还需对物体的部件进行分割。部件分割是对物体的进一步解析,有助于提升机器人的环境感知能力,促进图像的精密化处理。 部件分割的能力依赖于训练集中图像的数量与部件的种类。然而,目前公开的部件数据集的图像数量不足且种类单一,现实世界中的物体与部件的数量与种类远远超过目前公开数据,这极大的限制了部件分割模型对于训练集中未见过物体的部件的分割能力。因此,近些年来随着人工智能技术的发展,为未见过物体的部件分割的提供了一些新的可能,期待一种基于稠密语义相似度的图像部件分割方法。 在目标抓取、图像编辑、图像生成应用中仅仅进行对象级别的感知是不够的,还需对目标的部件进行识别。目前部件分割的数据集的种类和数量有限,因此限制了部件分割技术的发展。相较于部件级别的数据,目前对象级的数据量与种类丰富,因此现有技术大多在对象级别的任务下开展研究。部件分割不仅与部件标注的数据量与种类相关还与部件所属的物体类别密不可分,即同一标注的部件在不同物体上的形态和颜色各异,比如部件标注是耳朵,但是猫的耳朵与兔子的耳朵在形态和颜色存在明显差异,这使得部件分割更具挑战性。在部件分割任务中,大多都是依赖于有监督的学习方式,然而数据集严重约束了这种方法的分割效果。之后,随着多模态模型的发展,利用文本特征辅助图像进行部件分割,这种方法在一定程度大大提高了部件分割的效果,但是需要增加文本特征的计算量。此外,一些研究通过构造伪标签与多模态结合的方法进行部件分割,这种方法在数据集中出现的部件类别分割效果较好,但是在数据集未见过的类别处理效果较差。 现有技术采用两种方案(一阶段和二阶段)进行部件语义分割(OV-PARTS:Towards Open-Vocabulary Part Segmentation)。二阶段方案采用ZSeg+模型,一阶段方案采用CLIPSeg模型,这两种模型均需要与文本特征相结合。ZSeg+模型需要先生成感兴趣区域,之后利用文本特征与感兴趣区域进行分类与掩码。CLIPSeg模型利用图像编码器生成图像特征,利用文本编码器生成文本特征,融合文本与图像特征,利用解码器生成图像掩码与类别。以上两种方法都需要文本特征,对数据集要求更高。在进行未见过物体部件分割时,依赖于模型的好坏与文本特征,而部件数据集的数量与种类有限,因此基于部件数据集训练出的模型的泛化能力较弱。针对现有技术中部件数据集涵盖的物体种类较少,带有部件掩码的图像数量不足,并且部件标注的成本较高等问题,提出种基于稠密语义相似度的图像部件分割方法对未见过物体进行部件分割,不受数据集中图像数量与物体类别的限制。在未见过物体分割任务中,现有技术常采用开放词汇技术进行语义分割,而该方法使用的数据集不仅需要大量带有部件掩码的图像还需要对应文本标注,而同一物体可以采用不同的文本描述,进一步增加了这种方法的难度。为解决上述问题,本方法采用图像的稠密语义相似度特征进行未见过物体的部件分割。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
杨姗  魏武
技术所属: 华南理工大学
相关技术
变压器呼吸器变色检测方法、装置、系统及电子设备 变压器呼吸器变色检测方法、装置、系统及电子设备
基于机器视觉和AR的虫害检测与管理系统 基于机器视觉和AR的虫害检测与管理系统
一种电路板的故障快速检测方法、系统及存储介质 一种电路板的故障快速检测方法、系统及存储介质
遥感影像检测方法、装置、电子设备及存储介质 遥感影像检测方法、装置、电子设备及存储介质
一种基于在网计算的流表压缩方法 一种基于在网计算的流表压缩方法
一种基于分段信道估计的通感一体化系统干扰消除方法 一种基于分段信道估计的通感一体化系统干扰消除方法
一种基于上半身姿态的驾驶员情绪状态检测方法及系统 一种基于上半身姿态的驾驶员情绪状态检测方法及系统
一种引入RBU的轻量化皮革表面缺陷显著目标检测方法 一种引入RBU的轻量化皮革表面缺陷显著目标检测方法
一种基于金字塔的SAR图像相干斑抑制方法 一种基于金字塔的SAR图像相干斑抑制方法
一种考虑多层级特征的多类别点云异常检测方法及系统 一种考虑多层级特征的多类别点云异常检测方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利