本申请属于计算机视觉和自然语言处理技术领域。本申请提供一种基于大模型知识的跨模态行人搜索关键语义完备对齐方法。本公开实施例利用预训练视觉语言大模型所含外部通用知识提取更具判别力的视觉特征和文本特征;设计噪声过滤模块,通过参考模态内的全局和局部语义间的关系,滤除图像和文本中与行人无关的噪声,仅保留与行人相关的细粒度关键语义信息;提出关键语义显著性与完整性联合优化的完备学习模块,同时考虑显著性和完整性两方面的协同关系,实现跨模态行人关键语义信息的完备对齐。能够过滤行人无关的噪声信息,增强模型对行人相关的关键信息的关注度,挖掘跨模态细粒度信息之间的对应关系,进而提升跨模态行人检索的准确度。
背景技术
自然语言跨模态行人搜索旨在通过文本描述从图像库中找到目标人物所对应的图像,其在安防监控、智能视频分析等领域具有广泛应用。作为一种细粒度的跨模态检索任务,相关研究工作对消解图像和文本之间的模态异质性展开探索。但是,先前方法忽略了图像和文本中存在的固有噪声(例如:图像中环境背景和文本中行人无关词语)会不可避免地对跨模态对齐产生干扰,导致模型对行人细节信息的判别能力较差,难以区分相似的行人图像。
因此,有必要改善上述相关技术方案中存在的一个或者多个问题。
需要注意的是,本部分旨在为权利要求书中陈述的本公开的技术方案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
实现思路