本技术公开了一种基于注意力机制的自适应微小目标检测方法,涉及计算机视觉技术领域,其中方法包括:获取数据集;构建特征增强模块;构建自适应稀疏卷积检测头;构建基于注意力机制的自适应微小目标检测模型,将特征增强模块加入主干网络中,使用自适应稀疏卷积检测头代替原始检测头;确定最终的微小目标检测模型。本发明构建自适应稀疏卷积头,通过通道注意力机制动态调整稀疏卷积在不同FPN层对应检测头的使用,有效平衡模型复杂度与检测精度,提高微小物体检测精度的同时保持计算效率;构建特征增强模块,利用全局平均池化融合全局上下文信息,增强了模型对微小物体的特征表示能力,提高了模型在复杂环境下对不同大小物体的检测性能。
背景技术
随着计算机视觉技术的快速发展,微小目标检测在许多领域变得日益重要,例如自动驾驶、空中监控、遥感图像分析等。在这些应用中,准确快速地检测到图像或视频中的小尺寸目标是至关重要的。然而,由于微小目标在图像中占据的像素数量有限,它们往往容易被背景噪声、光照变化、遮挡等因素影响,使得传统计算机视觉算法难以准确定位和识别这些目标。
传统的基于多尺度特征的方法以特征金字塔网络FPN为代表,通过整合深层和浅层特征来提高对不同大小物体的检测能力。例如,在一些先进的目标检测算法中,利用 FPN结构从不同层次的特征图中提取信息,使得模型能够同时关注到物体的整体语义信息和局部细节特征。然而,随着网络层数的增加和对多尺度特征处理的需求,模型的复杂度也随之上升,对计算资源的需求大幅增加,这对于一些计算资源有限的设备如嵌入式设备、移动端设备等来说,难以满足实时检测的要求。
为了应对计算资源受限的挑战,许多研究尝试采用稀疏卷积技术。稀疏卷积通过仅在图像的关键区域进行卷积操作,专注于计算重要的特征,从而减少计算负载和内存使用。He S, Jiang C, Dong D等人在其发表的论文“Sd-conv: Towards the parameter-efficiency of dynamic convolution”(Proceedings of the IEEE/CVF WinterConferenceon Applications of Computer Vision.2023.)提出了一种稀疏动态卷积Sparse Dynamic Convolution,作者首先设计了一个二进制掩码,该掩码基于可学习的阈值来修剪静态卷积核,从庞大的网络中去除冗余来获得轻量级网络,从而显著减少了参数和计算成本。Du B, Huang Y, Chen J, Huang D在论文“Adaptive Sparse ConvolutionalNetworks with Global Context Enhancement for Faster Object Detection on DroneImages. ”(Proceedings of the IEEE/CVF Conference on Computer VisionandPattern Recognition.2023.)提出了一种全局上下文增强自适应稀疏卷积网络(CEASC),该方法通过在检测头中使用稀疏卷积来节省计算资源,该网络中的CESC模块采用point-wise卷积来生成全局特征信息,此外,作者还使用该全局特征信息的平均值和方差对特征图进行组归一化,从而弥补缺失的上下文信息,以提高检测精度。然而,当稀疏卷积应用于FPN 的不同层对应的检测头时,却带来了新的问题。在 FPN 的较低层,图像具有较高的空间分辨率和丰富的细节信息,适合捕捉微小物体,此时使用稀疏卷积可以有效减少计算量并保留关键细节;但在 FPN 的较高层,微小物体经过多次下采样后在图像中所占空间有限,详细信息已经大量减少,再应用稀疏卷积可能会进一步忽视这些有限的信息,导致高层特征图过度稀疏,从而丢失上下文信息,最终影响微小物体的检测精度。因此,如何针对FPN不同层级的特征特性动态调整稀疏卷积的使用并补充有效的上下文特征信息,是优化小目标检测性能的一个关键问题。
综上所述,现有的微小物体检测技术在提高检测性能的同时,面临着计算资源受限、特征表示不足以及难以平衡检测效率等诸多挑战,迫切需要一种新的技术方案来解决这些问题,以满足日益增长的实际应用需求。
实现思路