本技术公开了一种基于稠密语义相似度的图像部件分割方法及系统,包括以下步骤:收集图像数据,将收集的图像数据作为基础图像数据集的数据;使用目标框选定目标图像中的物体;分别提取目标图像以及基础图像数据集的图像特征,得到图像的全局特征与描述子;计算每个目标图像全局特征与所有基础图像全局特征的稠密语义特征相似度,获得最相似基础图像;计算目标图像描述子与最相似基础图像的基础图像描述子稠密语义特征相似度,获取基础图像物体与目标物体之间部件的相似度,并根据相似度分割目标物体的部件。本发明对未见过的物体进行部件分割,提高物体部件语义分割的效果,降低对数据集的需求,有广泛的应用价值用。
背景技术
随着互联网技术的发展和智能数码产品的普及,在生活生产中的图像数量急剧增长,人们需要对不断出现的图像进行分析来满足现实生活中的需求。在机器人控制、图像编辑、图像生成应用中,仅仅进行对象级别的感知是不够的,还需对物体的部件进行分割。部件分割是对物体的进一步解析,有助于提升机器人的环境感知能力,促进图像的精密化处理。
部件分割的能力依赖于训练集中图像的数量与部件的种类。然而,目前公开的部件数据集的图像数量不足且种类单一,现实世界中的物体与部件的数量与种类远远超过目前公开数据,这极大的限制了部件分割模型对于训练集中未见过物体的部件的分割能力。因此,近些年来随着人工智能技术的发展,为未见过物体的部件分割的提供了一些新的可能,期待一种基于稠密语义相似度的图像部件分割方法。
在目标抓取、图像编辑、图像生成应用中仅仅进行对象级别的感知是不够的,还需对目标的部件进行识别。目前部件分割的数据集的种类和数量有限,因此限制了部件分割技术的发展。相较于部件级别的数据,目前对象级的数据量与种类丰富,因此现有技术大多在对象级别的任务下开展研究。部件分割不仅与部件标注的数据量与种类相关还与部件所属的物体类别密不可分,即同一标注的部件在不同物体上的形态和颜色各异,比如部件标注是耳朵,但是猫的耳朵与兔子的耳朵在形态和颜色存在明显差异,这使得部件分割更具挑战性。在部件分割任务中,大多都是依赖于有监督的学习方式,然而数据集严重约束了这种方法的分割效果。之后,随着多模态模型的发展,利用文本特征辅助图像进行部件分割,这种方法在一定程度大大提高了部件分割的效果,但是需要增加文本特征的计算量。此外,一些研究通过构造伪标签与多模态结合的方法进行部件分割,这种方法在数据集中出现的部件类别分割效果较好,但是在数据集未见过的类别处理效果较差。
现有技术采用两种方案(一阶段和二阶段)进行部件语义分割(OV-PARTS:Towards Open-Vocabulary Part Segmentation)。二阶段方案采用ZSeg+模型,一阶段方案采用CLIPSeg模型,这两种模型均需要与文本特征相结合。ZSeg+模型需要先生成感兴趣区域,之后利用文本特征与感兴趣区域进行分类与掩码。CLIPSeg模型利用图像编码器生成图像特征,利用文本编码器生成文本特征,融合文本与图像特征,利用解码器生成图像掩码与类别。以上两种方法都需要文本特征,对数据集要求更高。在进行未见过物体部件分割时,依赖于模型的好坏与文本特征,而部件数据集的数量与种类有限,因此基于部件数据集训练出的模型的泛化能力较弱。针对现有技术中部件数据集涵盖的物体种类较少,带有部件掩码的图像数量不足,并且部件标注的成本较高等问题,提出种基于稠密语义相似度的图像部件分割方法对未见过物体进行部件分割,不受数据集中图像数量与物体类别的限制。在未见过物体分割任务中,现有技术常采用开放词汇技术进行语义分割,而该方法使用的数据集不仅需要大量带有部件掩码的图像还需要对应文本标注,而同一物体可以采用不同的文本描述,进一步增加了这种方法的难度。为解决上述问题,本方法采用图像的稠密语义相似度特征进行未见过物体的部件分割。
实现思路