本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括:获取包含文本的场景图像参考样本数据集和增强样本数据集;基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,获得各场景图像分别对应的多尺度文本实例特征图;采用插值和最大池化方法获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,得到逐像素增强后的文本实例特征;构建傅里叶特征解码器,获得重构的文本实例轮廓;采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。
背景技术
文本检测可视为目标检测的特殊形式,广泛应用于文本信息提取和高级驾驶辅助系统等领域。然而,现实场景中的文本形状多样性、复杂背景和变化的光照条件,往往导致图像细节丢失,给文本检测带来重大挑战。传统方法依赖显著文本特征,通过连通分量分析或滑动窗口等技术手工设计特征,但在自然场景中难以捕捉上下文信息,对多向或任意形状文本的处理能力有限。
近年来,研究人员提出多种文本检测方法,虽然对场景文本检测问题有所改进,但对任意形状的场景文本检测仍存在着一定的问题,包括任意形状场景文本数量稀少会导致普通的场景文本检测模型存在训练数据不够;传统场景文本检测模型所采用的视觉基础架构缺乏长程依赖建模能力,或有着二次计算复杂度,无法扩展,且收敛速度较慢;VMamba框架中的十字形激活机制在捕获复杂文本的局部信息方面遇到了限制;仅仅关注单一维度特征,会阻碍任意形状的场景文本检测模型的表征能力。
实现思路