本技术涉及人工智能技术领域,公开了一种基于细粒度视觉‑语言模型的遥感语义分割推理加速方法,首先通过构建图像级、区域级的细粒度图文数据集,进行细粒度的图像‑文本对比学习,训练带有一个图像编码器和一个文本编码器的双塔视觉‑语言模型;将预训练得到的细粒度视觉‑语言模型权重迁移到二阶段推理加速框架中作为目标筛选器;通过细粒度视觉‑语言模型计算大尺寸遥感图像测试样本中一系列小图像块的图像特征与目标类别文本特征的相似度分数,并设置阈值筛选出存在目标类别的小图像块;将筛选后的图像块输入遥感语义分割模型中,得到最终的分割结果。该方法利用细粒度视觉‑语言模型定位大尺寸遥感图像的稀疏目标区域,高效筛选出足够多、正确的稀疏目标所在的区域,降低直接推理的时间成本从而提高推理效率。
背景技术
遥感语义分割是遥感图像处理领域中的一个核心任务,其主要目的是从遥感图像中准确地提取和标记不同地物或目标的空间位置信息。这项技术在多个应用领域中发挥着至关重要的作用,包括城市规划、环境监测、农业管理、自然资源管理以及自然灾害的预测和应对等。通过遥感语义分割技术,研究人员和从业者能够从广泛的地理区域中提取有价值的信息,从而为决策提供支持。
遥感图像通常具有大尺度和高分辨率的特点,这使得现有的遥感语义分割方法在处理这些图像时面临巨大的计算复杂性和存储需求。具体而言,处理这样的大尺寸图像不仅需要高性能的计算设备,还需要高效的算法来降低计算负担。为了应对这些挑战,当前的研究通常采用将大尺度高分辨率遥感图像进行裁切的策略。通过将整幅图像切割成较小的区域进行处理,可以显著减少计算和存储资源的消耗,并提高模型的训练和推理效率。
然而,遥感图像通常覆盖广阔的地理区域,这些区域可能包含多种复杂的地物和目标,如湖泊、森林、建筑物、道路、车辆等。在实际应用中,这些目标的分布往往是稀疏的,即在整个图像中,只有少部分区域包含了这些目标,其他大部分区域则可能只是空旷的背景或无关的内容。这种稀疏性在处理超大尺寸的高分辨率遥感图像时,尤其是例如10000×10000分辨率的图像时,带来了额外的挑战。
语言-图像预训练在过去几年中取得了显着的进展。特别是,对比语言图像预训练展示了非常令人印象深刻的零样本迁移和泛化能力。一系列工作利用视觉-语言预训练模型进行下游任务,例如开放词汇检测与分割、视频识别等。因此,面对大尺寸高分辨率遥感图像中的稀疏目标这一应用场景,基于视觉-语言模型进行目标区域筛选,可以有效实现更高效的分割推理策略,减少对无关区域的计算开销。
实现思路