本技术涉及无人机视角文本检测技术领域,公开了一种基于边界适应的无人机视角文本检测模型,首先,使用ResNet50作为主干网络,并提出混合文本注意力机制,且将其引入到特征提取模块中,以增强对文本区域的感知能力。此外,本发明提出一种空间特征融合模块,用于自适应融合不同尺度的文本特征,从而增强模型的适应性。最后,本发明通过在文本细节边界迭代优化模块的Transformer中引入局部特征提取器,实现了复杂背景干扰下的文本边界精确优化和定位,避免了复杂的后处理步骤。在具有挑战性的文本检测数据集以及基于无人机的文本检测数据集上的大量实验验证了我们提出的方法的高鲁棒性和先进的性能,为实际应用奠定了坚实基础。
背景技术
随着无人机技术的快速发展,无人机在日常生活和专业领域中的应用越来越广泛,包括军事侦察、环境监测、物流、城市规划和灾害救援等。无人机图像中的文本检测和识别对于增强无人机环境感知能力具有重要意义。因为文本通常包含重要的地理位置信息、设施名称、方向标志和广告内容。提取这些文本信息能够显著增强无人机在复杂环境中的环境感知能力,从而更好地理解周围环境,提高自主决策和路径规划的准确性。此外,对于智慧城市的发展,它有助于分析商业布局和社区街道广告的分布。然而,从无人机视角拍摄的航拍图像具有复杂的背景信息、多样的文本形状和方向、小尺度文本和遮挡等挑战,使得文本检测任务尤为困难。
现有的文本检测技术主要针对自然场景中拍摄的图像。然而,由无人机拍摄的图像具有独特的挑战和需求。首先,无人机通常从空中视角拍摄图像,导致文本以各种形状和方向出现。其次,无人机常常在较高的高度拍摄,导致文本规模较小且存在显著的背景干扰。此外,由于无人机飞行的动态特性,同一文本区域可能会从多个角度被拍摄。最后,由于不同的时间和天气条件引起的光照变化,图像中可能出现阴影和高光,进一步增加了文本检测的复杂性。因此,开发一种专门针对无人机视角的文本检测模型至关重要。通过引入边界自适应技术,模型在复杂场景中的检测能力得到了有效增强,能够满足实际应用的需求。
当前流行的文本检测方法大致可以分为两类:基于回归的方法和基于分割的方法。基于回归的方法用于预测文本框的边界坐标,不需要额外的后处理操作,因此提高了计算效率,并在各种文本格式下表现出良好的性能。然而,这些方法在处理小规模且密集的文本时表现出不稳定性,并且在面对包含复杂背景信息的文本时,难以取得令人满意的结果。
对于基于分割的文本检测方法,如Pan和DBNet,它们利用像素级的文本区域掩码,通常比基于回归的方法提供更高的精度。由于能够捕捉文本的几何结构,这类方法在处理各种形状和方向的文本时能取得更好的效果。此外,分割方法可以将文本区域分块,使其在处理密集文本和复杂背景时表现得更好。然而,这种方法通常需要复杂的后处理步骤来将像素组分配到文本区域,这需要大量的标注数据和计算资源。
这些方法通常依赖于卷积神经网络(CNN),但CNN往往忽视了文本之间的长距离依赖关系和全局空间关系,使其对文本中的噪声区域较为敏感。然而,在无人机视角下的文本检测任务中,文本可能出现在各种尺度、方向和形状上,并且会受到复杂背景干扰的影响。因此,全球特征和长距离依赖对于准确检测文本至关重要。此外,常用的CNN主干网络,如ResNet和VGG,提供了粗粒度的高分辨率特征,这对大规模文本检测有用,但不利于检测小规模的文本实例。
因此,有必要提供一种基于边界适应的无人机视角文本检测模型解决上述技术问题。
实现思路