本公开提供了一种跨模态检索方法及装置、电子设备、存储介质,属于图像处理技术领域,该方法包括:基于目标图像提取第一场景图;基于点云数据提取第二场景图;基于目标图像的位姿进行所述第二场景图投影,筛选多个第三场景图;所述第三场景图为所述第二场景图中的局部二维场景图;分别计算所述第一场景图与所述第三场景图的第一相似度,基于第一相似度计算结果从所述第三场景图中筛选第四场景图,将所述第四场景图确定为所述目标图像对应的检索结果。本公开提供的跨模态检索方法及装置、电子设备、存储介质可以提高跨模态检索的准确度。
背景技术
跨模态检索技术是指在两种或多种模态(如文本、图像、音频、视频、三维模型等)之间建立对应关系,使用户能够通过一种模态的信息去检索另一种模态的信息。例如,图像-点云跨模态检索是一项将二维图像和三维点云数据进行关联与匹配的技术,在自动驾驶、机器人导航、三维重建等领域具有广泛的应用前景。
由于图像和点云数据在底层表示上存在显著异构性,图像由像素组成,包含丰富的颜色、纹理和形状信息,而点云数据则是由空间中的点及其属性(如颜色、强度、深度等)组成,更侧重于表达物体的几何形状和空间分布,这种差异使得直接关联和比较两种模态的数据变得十分困难。现有技术通常学习一个公共的高维空间,并将图像和点云的特征表示在该空间中,并通过相似度计算以捕捉模态之间的潜在关联,从而实现跨模态检索。然而,由于两种模态数据的异构性,找到一种能够同时表达它们关键信息的共同特征表示空间并不容易,同时由于两种模态数据的差异较大,传统的相似度度量方法可能无法准确地反映它们之间的相似关系。此外,随着点云模型数量和规模的增加,相似度计算和检索的计算开销也是一个需要解决的问题,这也限制了相关技术的可扩展性。
实现思路