本技术涉及图像处理技术领域,具体公开了一种目标检测方法、装置、设备、介质及计算机程序产品,通过在视觉感知模型中添加多分辨率图像校正网络,在利用多分辨率图像样本迭代视觉感知模型的过程中,利用多分辨率图像校正网络根据分辨率对应的图像特征尺寸与基准图像特征尺寸的关系确定分辨率对应的图像特征位置编码,根据该图像特征位置编码对输入的图像特征进行自注意力计算并输出校正后的图像特征,从而实现将不同分辨率的图像特征校正到与基准图像特征一致,在训练视觉感知模型时降低不同分辨率图像样本之间的干扰,在利用训练后的视觉感知模型执行目标检测任务时,对于需要处理的不同分辨率的输入图像均能保证精度的目标检测结果。
背景技术
目标检测是计算机视觉(Computer Vision)的一个常见应用,其主要任务为通过对采集的图像进行处理以获得相应的场景信息,在自动驾驶、智能机器人、智能家居、智慧终端以及交通运输、航空遥感、工业产品装配等工业生产等领域均有广泛的应用。
在执行目标检测任务时,视觉感知模型决定了检测的精度。在实际应用中,有时需要视觉感知模型能够处理不同分辨率的输入图像,例如针对计算资源有限的应用场景通常采用分辨率较低的图像样本训练视觉感知模型,针对小目标、远距离目标的感知场景则采用分辨率较高的图像样本训练视觉感知模型。但是,若视觉感知模型在推理计算阶段的输入图像的分辨率与训练阶段的图像样本的分辨率不同,则会导致视觉感知模型的检测精度明显下降。这导致在实际应用中,视觉感知模型一旦部署,就只能处理固定分辨率的输入图像。
如何提升目标检测任务中适应不同分辨率的输入图像的分辨率泛化能力,是本领域技术人员需要解决的技术问题。
实现思路