本技术揭示了一种多模态图像-文本零样本语义分割技术及其系统,该技术属于图像语义分割领域,特别适用于处理热感和红外图像,旨在增强RGB-T语义分割在多样化场景中的零样本性能。
背景技术
语义分割在实现无人系统场景理解方面发挥着关键作用,尤其是在自动驾驶、机器人操作及遥感等领域有着广泛的应用。尽管先前的研究已在基于RGB图像的标准数据集上实现了显著的分割效果,但在恶劣天气或低光照条件下导致的低能见度环境中,这些方法常遇到难以准确分割目标物与背景的问题。为了克服这些限制,研究人员开始利用热感/红外图像来提升视觉感知任务的性能。尽管取得了一定的进展,但传统的RGB-T语义分割方法大多局限于预定义的类别进行训练,这限制了它们对于更多场景进行泛化的潜力。
近年来,视觉语言模型(VLMs,Visual Language Models)和开放词汇学习的快速发展,为拓展语义分割任务在开放环境中的能力开辟了道路。相比于传统语义分割方法,这种通过结合VLMs和开放词汇学习的方法可以支持任意类别的文本输入,并实现实例级语义分割,因此又被称为开放词汇语义分割。
现有开放词汇语义分割方法大多采取两阶段式方法来实现,其中主要包括两种思路。
第一类方法首先利用视觉基础模型生成与类别无关的掩码提议,然后应用预训练的图文匹配模型对这些掩码提议进行分类。这种方法的一个主要挑战是其性能高度依赖于初始掩码的准确生成以及随后的分类步骤。此外,由于图文匹配模型通常是在大规模的RGB图像数据集上训练的,因此当待检测图像(目标域)与训练数据集(源域)之间存在较大差异时,可能会导致分类错误。
为了减少潜在的分类错误,第二类方法则首先使用开放词汇目标检测器对要检测的类别生成检测框,然后使用视觉基础模型对目标进行分割。不过,这种方法在目标检测阶段仍然可能遭遇误检或漏检的问题,因为开放词汇目标检测器同样是基于一个固定的文本描述库进行训练的。当输入的文本描述与训练文本库中的类别存在语义上的模糊重叠时,可能会产生错误的置信度评分,进而导致误检或漏检的情况发生。
此外,现有的开放词汇语义分割模型大多仅限于RGB单一模态信息的使用。由于不同模态数据间存在异质性,当这些模型需要处理热感或红外图像时,会遇到类别理解上的困难。
实现思路