基于VMamba框架和通道-空间注意力机制的场景文本检测方法
2025-02-23 12:12
No.1343194137209610240
技术概要
PDF全文
本申请涉及一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法、装置和计算机设备。该方法包括:获取包含文本的场景图像参考样本数据集和增强样本数据集;基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,获得各场景图像分别对应的多尺度文本实例特征图;采用插值和最大池化方法获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,得到逐像素增强后的文本实例特征;构建傅里叶特征解码器,获得重构的文本实例轮廓;采用损失函数训练以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。采用本方法能够实现拥有全局感受野、快速收敛和精准定位的场景文本检测。
背景技术
文本检测可视为目标检测的特殊形式,广泛应用于文本信息提取和高级驾驶辅助系统等领域。然而,现实场景中的文本形状多样性、复杂背景和变化的光照条件,往往导致图像细节丢失,给文本检测带来重大挑战。传统方法依赖显著文本特征,通过连通分量分析或滑动窗口等技术手工设计特征,但在自然场景中难以捕捉上下文信息,对多向或任意形状文本的处理能力有限。 近年来,研究人员提出多种文本检测方法,虽然对场景文本检测问题有所改进,但对任意形状的场景文本检测仍存在着一定的问题,包括任意形状场景文本数量稀少会导致普通的场景文本检测模型存在训练数据不够;传统场景文本检测模型所采用的视觉基础架构缺乏长程依赖建模能力,或有着二次计算复杂度,无法扩展,且收敛速度较慢;VMamba框架中的十字形激活机制在捕获复杂文本的局部信息方面遇到了限制;仅仅关注单一维度特征,会阻碍任意形状的场景文本检测模型的表征能力。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
胡政  赵英男  丁方琪  张德文  杨祖国  江结林
技术所属: 南京信息工程大学
相关技术
变压器呼吸器变色检测方法、装置、系统及电子设备 变压器呼吸器变色检测方法、装置、系统及电子设备
基于机器视觉和AR的虫害检测与管理系统 基于机器视觉和AR的虫害检测与管理系统
一种电路板的故障快速检测方法、系统及存储介质 一种电路板的故障快速检测方法、系统及存储介质
遥感影像检测方法、装置、电子设备及存储介质 遥感影像检测方法、装置、电子设备及存储介质
一种基于在网计算的流表压缩方法 一种基于在网计算的流表压缩方法
一种基于分段信道估计的通感一体化系统干扰消除方法 一种基于分段信道估计的通感一体化系统干扰消除方法
一种基于上半身姿态的驾驶员情绪状态检测方法及系统 一种基于上半身姿态的驾驶员情绪状态检测方法及系统
一种引入RBU的轻量化皮革表面缺陷显著目标检测方法 一种引入RBU的轻量化皮革表面缺陷显著目标检测方法
一种基于金字塔的SAR图像相干斑抑制方法 一种基于金字塔的SAR图像相干斑抑制方法
一种考虑多层级特征的多类别点云异常检测方法及系统 一种考虑多层级特征的多类别点云异常检测方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利