本技术公开一种基于特征融合与检测头协同优化的无人机目标检测方法,利用由卷积模块CBS和残差模块C2f堆叠的骨干网络获得多尺度的特征图,将多种尺度的特征图依次输送到多层级特征融合模块(ML‑FFM),从深层到浅层进行特征融合,增强浅层特征的语义信息;将融合后的特征图输入精细化特征增强模块(RFEM),基于时空注意力机制消除位置冲突和冗余信息,优化深层特征的细节和定位能力;将增强后的特征图送入基于Transformer的预测头进行检测,完成无人机航拍图像的目标分类和定位。本发明解决了无人机航拍图像尺度变化大,以及小目标占比高且分布密集的问题,从而提高了无人机航拍图像中目标检测的精度。且方法中提出的模块能显著降低计算量,适用于无人机的实时检测场景。
背景技术
目标检测作为计算机视觉和数字图像处理的重要研究方向,在智能辅助驾驶、工业检测等领域得到广泛应用。通过目标检测技术,计算机视觉算法能够大幅降低人力消耗,并提供更精准的服务。目标检测利用基础的目标分类网络,进一步实现图片或视频中物体的自动识别,成为计算机视觉和人工智能领域的研究热点。在无人机应用中,目标检测赋予了无人机自主感知、分析与决策的能力,使其在交通监控、电力巡检、水务巡检和灾害救援等领域展现出广泛的应用前景。无人机具备独特的空中视角和高机动性,能够实现高效的数据采集,特别是在交通监控中表现出响应快速、视野广阔等优势。然而,目前大多数目标检测研究集中于地面视频监控,无人机视角图像的目标检测尚未充分探索,现有算法在无人机图像上的精度普遍较低。
无人机视角下的目标检测面临诸多挑战,首先,无人机灵活的飞行高度和多变视角导致拍摄对象的距离变化显著,图像中目标的尺度呈现极度不均衡。此外,无人机广阔的视野既覆盖大量目标,也包含大量背景,导致图像中目标呈聚集分布:部分区域目标密集,存在遮挡问题,部分区域则目标稀疏甚至无目标,增大了计算资源的浪费。相较于地面视角图像,无人机视角中前景目标数量较多,但其在图像中占比小,导致正负样本不均衡,模型易受背景噪声干扰,难以准确聚焦目标。更进一步,由于无人机数据集的图像分辨率通常较高,处理高分辨率图像需耗费大量显存和计算资源,而无人机平台的芯片受限于低功耗,难以负担高计算量。此外,高分辨率图像的实时处理要求低延迟,因此必须在计算量与检测精度间取得平衡。
实现思路