本技术公开了一种基于多尺度语义细节融合的双分支实时语义分割方法,所述方法在Pytorch框架中构建多尺度语义细节融合的实时语义分割模型,利用LAE模块提取主干网络信息,在高分辨率分支与低分辨率分支间采用BDF模块进行不同层次信息交互,使用不同分支中上下文语义信息并利用轻量坐标注意力提高双分支的信息通信,提高整个网络对特征图中细节信息的学习能力;在低分辨率分支的末端采用了一个MLPP模块来表示上下文特征信息,以局部到全局的方式促进了上下文融合,使用深度卷积逐步聚和相邻尺度的特征,减少模型的大小,提高计算速度,本发明能够准确获取图像的语义分割结果,以实现实时图像语义分割的准确性和速度之间的权衡。
背景技术
轻量级语义分割是信号处理领域的一项基本且具有挑战性的任务,在许多现实多媒体应用中,如自动驾驶、无人机、机器人视觉和虚拟现实。语义分割的目标是为图像中的每个像素分配一个唯一的语义类别标签。目前语义分割尽管取得了显著的进展,但这些语义分割高精度网络往往涉及大量的模型,模型规模和巨大的计算成本不适用于许多需要在线估计和实时决策的真实应用程序。
基于双分辨率网络的语义分割算法是过去几年比较成熟的语义分割技术,例如BiSeNet系列由细节分支和语义分支组成,细节分支通过宽通道、小步幅的路径来保存空间细节信息,语义分支则采用快速下采样策略和全局平均池化来扩展网络的感受野并增强特征表示。ICNet(Image Cascade Network),将原始图像剪裁成3种不同尺寸,利用图像金字塔作为输入,构建多分支图像级联网络。DDRNet(Deep Dual Resolution Network)通过一次卷积操作后分裂成两个并行分支,其中一个分支负责生成高分辨率的特征图,以保持精确的空间位置信息;另一个分支则通过多次下采样来提取更广泛的上下文语义特征。同时,DDRNet在两个分支之间建立了多个双向连接,促进不同分辨率特征之间的交互与融合。此外,在低分辨率分支的末端设计了深度聚合金字塔池化模块(Deep Aggregation PyramidPooling Module,DAPPM),进一步捕获全局语义信息。虽然这些先进和轻量级的网络已经取得了很好的分割结果,但上述双分辨率架构对于分支间的双边信息交互时,影响了空间位置特征的获取,导致这些双分支结构对空间细节信息的感知能力较差,因而利用图像金字塔或自注意来编码多尺度上下文,但它们都面临着不适合实时语义分割的繁重计算。
实现思路