本技术介绍了一种创新的分布式感兴趣区域图像压缩技术,旨在解决传统图像压缩算法训练效率低下以及缺乏针对不同区域特征重要性进行差异化特征提取的问题。该技术通过优化算法,实现了对图像中关键区域的高效压缩,同时保持了图像质量。
背景技术
随着GPU等硬件设备的并行计算不断改革,使得人工智能这一领域得到了崭新的发展,基于深度学习的图像处理技术也成为了多媒体数据处理的重要方法。基于感兴趣区域ROI的图像压缩技术能够更好的适应人们对视觉的需求,对图像中存在目标个体的情况下,采取不同区域不同压缩策略的方式,实现更高的压缩效率和更好的视觉重建效果。图像的细节信息包含的信息量非常大,且在无线信道环境相对受限的情况下,很难有较好的压缩性能。因此,为了提高人们在视觉上对压缩重建后的图像有更好的感官体验,需要对感兴趣区域和背景区域进行差异化压缩。此外,随着现有图像压缩网络训练数据集和模型参数量的不断增大,网络的训练速度受到硬件资源的限制,采用分布式训练策略,可以极大的提高网络训练速度,解决单个节点训练速度慢的问题。
Cai等人在其发表的论文“End-to-End Optimized ROI Image Compression”(Published as a conference paper at CVPR 2021)中提出一种感兴趣区域图像压缩方法。其实现步骤是:(1)通过离线网络获取图像感兴趣区域的二值掩码;(2)将原始图像与得到的感兴趣区域二值掩码相乘,得到感兴趣区域图像;(3)将感兴趣区域图像输入分析变换模块得到图像的潜在映射;(2)将潜在特征输入到超分析模块,得到图像的分布,输出默认为标准高斯分布;(3)将图像的潜在映射输入到熵模型中,根据超分析变换模块得到的图像分布进行编解码;(4)将解压缩后的特征图通过合成变换模块,得到恢复图像。该方法的不足之处是,由于得到感兴趣区域的二值掩码需要先使用离线网络生成,再得到感兴趣区域图像进行图像压缩,因而不能实现自适应二值掩码,导致网络训练速度较低。
申请号为CN202410318128.6的专利文献公开了一种“图像压缩系统、图像压缩方法、存储介质与芯片”,其图像压缩方法的实现步骤为:(1)将图像输入非线性变换网络提取图像的潜在表示特征;(2)将潜在表示特征输入超先验变换网络得到特征的边信息;(3)使用第二编码器对边信息进行编码,生成第二码流;(4)将第二码流输入到第二解码器,得到重构的特征边信息;(5)将特征边信息输入到超先验反变换网络,用于获取潜在表示特征的方差参数与均值参数;(6)将方差参数、均值参数与潜在表示特征输入到上下文模型,用于重构图像潜在表示特征的高斯分布参数;(7)根据高斯分布参数使用第一编码器对对潜在表示特征进行编码,生成第一码流;(8)通过第一解码器对第一码流进行解码,得到潜在表示特征;(9)将潜在表示特征输入到非线性反变换网络,得到重构图像。该方法由于在使用超先验变换网络进行图像特征提取时对所有特征进行同等处理,并没有引入针对不同区域特征重要性的建模机制,而实际中不同区域的图像特征对视觉感知的影响和对码率分配的需求是各不相同,因而导致码率分配不合理,影响图像压缩质量。
实现思路