一种基于高频特征增强的神经表示视频编码方法
2025-02-25 12:15
No.1343919213005512704
技术概要
PDF全文
本技术公开了一种基于高频特征增强的神经表示视频编码方法,属于深度学习和视频编码领域。该方法对视频帧预处理,构建数据集并输入基于高频特征增强的神经网络。编码过程中,通过内容编码器和小波高频编码器下采样视频帧,提取嵌入特征。小波高频编码器利用哈尔小波分解块分离高频信息,生成独立的高频特征。在解码阶段,通过高频特征调制层融合高频信息,并利用谐波块上采样生成重建视频帧,增强高频细节。方法在空间和频率域的重建损失上进行端到端优化,满足预设轮次后保存训练好的网络权重和特征嵌入。本发明通过引入高频信息指导解码器上采样,显著提升了重建视频的质量和压缩效率。
背景技术
视频压缩是人们长期研究的一项基础性工作。现如今,随着互联网的发展,视频内容已成为互联网流量的最重要的组成部分。在过去,视频压缩通常是通过传统的编解码器实现的,例如H.264、H.265。尽管这些技术由于实现了可接受的折衷而被广泛使用,但这些编码方法中的手工算法限制了编码效率。近年来,随着深度学习的快速发展,许多方法使用神经网络替换传统编解码器中的某些模块取得了较为先进的率失真性能。然而,这些方法由于网络结构复杂,计算量巨大,导致解码效率较低,此外,这些方法还存在域泛化问题,适用性较差,因此没有得到大规模实际应用,因此积极探索新的编码方法很有必要。 隐式神经表示是一种新颖的方法,通过训练神经网络去学习一个连续的函数实现对输入坐标到相应值的映射。由于其高效性和紧凑性,已被用于表示和压缩视频内容,与先前基于学习的方法相比取得了较高的解码速度。在这种范式下,不是训练一个通过编解码网络来实现对视频帧的编解码,而是为每一个视频训练一个单独的网络,训练完成后视频内容就被保存到网络权重中。视频的编码过程是训练网络过拟合的过程,解码过程是神经网络的前向过程,因此,当训练完成后就可以使用神经网络压缩技术进行压缩以得到视频的比特流。 Dupont等人提出了图像隐式神经表示COIN(Dupont E, Goliński A, AlizadehM, et al. Coin: Compression with implicit neural representations[J]. arXivpreprint arXiv:2103.03123, 2021.),其中采用简单的MLP将空间坐标映射到颜色信息,并使用超参数搜索和权重量化技术对网络进行压缩作为图像的码流。Chen提出基于图像级的基于隐式神经表示的视频压缩方法NeRV(Chen H, He B, Wang H, et al. Nerv:Neural representations for videos[J]. Advances in Neural InformationProcessing Systems, 2021, 34: 21557-21568.),通过使用卷积神经网络学习帧坐标到整帧图像的映射函数,大大提高了视频的重建质量和网络的训练速度。NeRV成功证明了图像级隐式神经表示能够实现与传统编解码器可比的压缩性能。后续,HNeRv(Chen H,Gwilliam M, Lim S N, et al. Hnerv: A hybrid neural representation for videos[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition. 2023: 10270-10279.)提出了混合神经编码的方案,通过编码内容相关的微小嵌入取代时间坐标t作为网络输入以提供视觉先验,进一步提高了模型的重建质量和收敛速度。DNeRv(Zhao Q, Asif M S, Ma Z. Dnerv: Modeling inherent dynamics viadifference neural representation for videos[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. 2023: 2031-2040.)针对HNeRv建模复杂运动场景能力差的问题,提出引入差分流增强网络拟合动态场景的能力。 由于神经网络的频谱偏差性质会导致网络对于高频信息的重建能力不足,此外过去方法大多使用空间域损失,忽略了频率对改善图像质量的重要性。这就导致现有方案重建的视频帧过度平滑,缺乏高频细节,对于人类感知不友好。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
李智慧  于莉
技术所属: 南京信息工程大学
相关技术
一种双频双模孔径共享共形超宽带天线及其应用 一种双频双模孔径共享共形超宽带天线及其应用
一种纤维素基嵌入式电路的制备方法 一种纤维素基嵌入式电路的制备方法
一种基于加载电容贴片的双层基片集成波导谐振器 一种基于加载电容贴片的双层基片集成波导谐振器
基于多模通信的配用电网络校时方法、装置、系统及芯片 基于多模通信的配用电网络校时方法、装置、系统及芯片
一种非接触式IC载板表面处理系统及方法 一种非接触式IC载板表面处理系统及方法
一种气溶胶打印制备高稳定界面电路的方法 一种气溶胶打印制备高稳定界面电路的方法
一种支持群智感知的端边云紧凑视频编码方法及系统 一种支持群智感知的端边云紧凑视频编码方法及系统
一种高阶双频带的带通频率选择表面 一种高阶双频带的带通频率选择表面
一种方便调换的变频器及其使用方法 一种方便调换的变频器及其使用方法
血压连续测量预测方法、装置、设备及存储介质 血压连续测量预测方法、装置、设备及存储介质
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利