本技术公开了一种基于高频特征增强的神经表示视频编码方法,属于深度学习和视频编码领域。该方法对视频帧预处理,构建数据集并输入基于高频特征增强的神经网络。编码过程中,通过内容编码器和小波高频编码器下采样视频帧,提取嵌入特征。小波高频编码器利用哈尔小波分解块分离高频信息,生成独立的高频特征。在解码阶段,通过高频特征调制层融合高频信息,并利用谐波块上采样生成重建视频帧,增强高频细节。方法在空间和频率域的重建损失上进行端到端优化,满足预设轮次后保存训练好的网络权重和特征嵌入。本发明通过引入高频信息指导解码器上采样,显著提升了重建视频的质量和压缩效率。
背景技术
视频压缩是人们长期研究的一项基础性工作。现如今,随着互联网的发展,视频内容已成为互联网流量的最重要的组成部分。在过去,视频压缩通常是通过传统的编解码器实现的,例如H.264、H.265。尽管这些技术由于实现了可接受的折衷而被广泛使用,但这些编码方法中的手工算法限制了编码效率。近年来,随着深度学习的快速发展,许多方法使用神经网络替换传统编解码器中的某些模块取得了较为先进的率失真性能。然而,这些方法由于网络结构复杂,计算量巨大,导致解码效率较低,此外,这些方法还存在域泛化问题,适用性较差,因此没有得到大规模实际应用,因此积极探索新的编码方法很有必要。
隐式神经表示是一种新颖的方法,通过训练神经网络去学习一个连续的函数实现对输入坐标到相应值的映射。由于其高效性和紧凑性,已被用于表示和压缩视频内容,与先前基于学习的方法相比取得了较高的解码速度。在这种范式下,不是训练一个通过编解码网络来实现对视频帧的编解码,而是为每一个视频训练一个单独的网络,训练完成后视频内容就被保存到网络权重中。视频的编码过程是训练网络过拟合的过程,解码过程是神经网络的前向过程,因此,当训练完成后就可以使用神经网络压缩技术进行压缩以得到视频的比特流。
Dupont等人提出了图像隐式神经表示COIN(Dupont E, Goliński A, AlizadehM, et al. Coin: Compression with implicit neural representations[J]. arXivpreprint arXiv:2103.03123, 2021.),其中采用简单的MLP将空间坐标映射到颜色信息,并使用超参数搜索和权重量化技术对网络进行压缩作为图像的码流。Chen提出基于图像级的基于隐式神经表示的视频压缩方法NeRV(Chen H, He B, Wang H, et al. Nerv:Neural representations for videos[J]. Advances in Neural InformationProcessing Systems, 2021, 34: 21557-21568.),通过使用卷积神经网络学习帧坐标到整帧图像的映射函数,大大提高了视频的重建质量和网络的训练速度。NeRV成功证明了图像级隐式神经表示能够实现与传统编解码器可比的压缩性能。后续,HNeRv(Chen H,Gwilliam M, Lim S N, et al. Hnerv: A hybrid neural representation for videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition. 2023: 10270-10279.)提出了混合神经编码的方案,通过编码内容相关的微小嵌入取代时间坐标t作为网络输入以提供视觉先验,进一步提高了模型的重建质量和收敛速度。DNeRv(Zhao Q, Asif M S, Ma Z. Dnerv: Modeling inherent dynamics viadifference neural representation for videos[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2023: 2031-2040.)针对HNeRv建模复杂运动场景能力差的问题,提出引入差分流增强网络拟合动态场景的能力。
由于神经网络的频谱偏差性质会导致网络对于高频信息的重建能力不足,此外过去方法大多使用空间域损失,忽略了频率对改善图像质量的重要性。这就导致现有方案重建的视频帧过度平滑,缺乏高频细节,对于人类感知不友好。
实现思路