本技术请求保护一种基于机器学习的VVC快速帧内编码模式决策方法,属于视频编码领域,该方法包括以下步骤:获取当前待编码CU的纹理信息、子块纹理信息和领域信息用于LightGBM模型预测;首先使用训练好的LightGBM模型对三个类别的概率进行预测,三个类别分别为:0(角度预测模式)、1(ISP模式)、2(MIP模式);将概率与阈值进行比较,并且去除概率低于阈值的类别,以减少需执行完整的率失真优化过程的候选模式的数量;此外,在类别0被保留的情况下,进一步使用另一个LightGBM模型预测67种角度预测模式的概率,并去除概率较低的预测模式。本发明在保证视频质量的前提下,能显著节省H.266/VVC的帧内编码时间,适用于实时性要求较高的视频编码应用场景。
背景技术
随着互联网应用的普及,用户对于视频的期望也不断提升,他们希望获得更加逼真和清晰的视觉体验,并且期待视频播放的流畅性能达到更高水平。为了满足用户的需求,出现了各种新兴的视频应用,比如超高清(Ultra High Definition,UHD)、高帧率(HighFrame Rate,HFR)、高动态范围(High Dynamic Range,HDR)、宽色域(Wide Color Gamut,WCG)、虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)。然而视频数据的激增对有限的通信传输带宽和存储资源造成了巨大的压力,因此联合视频专家团队(Joint Video Experts Team,JVET)开发了下一代视频编码标准VVC(Versatile VideoCoding)。相较于它的前任,即高效率视频编码HEVC(High Efficiency Video Coding),VVC采用了多种新的编码技术,比如,基于四叉树加多类型树(Quad-tree Plus Multi-typeTree,QTMT)的编码单元(Coding Unit,CU)划分结构、更多的角度预测模式(从HEVC的35种增加到了VVC的67种)、宽角度帧内预测(Wide Angle Intra Prediction,WAIP)、位置相关帧内预测组合(Position Dependent Intra Prediction Combination,PDPC)、多行参考线(Multiple Reference Line,MRL)预测、帧内子块划分模式(Intra Sub-Partitions Mode,ISP)和基于矩阵的预测(Matrix weighted Intra Prediction,MIP)等技术。这些新的编码技术使得VVC的编码效率提高了近50%,但同时编码复杂度也大幅增加。导致编码复杂度大幅增加的主要原因有两个,基于QTMT的CU划分结构和基于率失真优化(Rate DistortionOptimization,RDO)的帧内编码模式搜索过程,本发明专注于降低帧内编码模式搜索的复杂度。基于RDO的帧内编码模式搜索过程通过对候选模式列表(Candidate Mode List,CML)中的每一个模式进行完整的RDO过程(包括预测、变换、量化和熵编码等过程),并计算每一种模式的率失真代价,其中率失真代价最低的一个模式则被选为最优的帧内编码模式,这一暴力搜索的过程使得编码复杂度大幅上升,因此,本发明通过减少候选模式列表中的模式数量以降低编码复杂度。
本发明所提方法LightGBM模型对帧内编码模式进行预测,利用预测结果去除冗余的帧内编码模式,以降低RDO过程的计算复杂度,并显著降低VVC帧内编码的编码时间。首先,使用原编码器对视频序列进行编码,在此过程中记录特征数据和帧内编码模式,并建立相应的数据集用于训练轻量级梯度提升机器(Light Gradient Boosting Machine,LightGBM)模型;其次,确定LightGBM模型训练的超参数,并加载数据集训练模型;最后,使用编码器加载模型对CU帧内编码模式进行预测,并利用预测结果去除冗余的RDO过程。本发明可用于VVC帧内编码配置下的编码,在确保编码效率损失极少的前提下,显著减少VVC的编码时间。
实现思路