本技术属于视频标签生成领域,尤其涉及基于神经网络模型的视频帧多标签自动生成方法及系统,其中方法包括:获取待处理的目标视频文件;从所述目标视频文件中根据预设的视频抽帧间隔值抽取视频帧,并生成抽取记录;根据抽取的视频帧进行预处理,并将预处理的视频帧传输至神经网络模型中,提取出多维度帧级特征;将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度,并根据类别置信度生成多标签集合;返回目标视频文件的多标签集合和抽取记录。本发明能够解决视频帧多标签分类生成问题。
背景技术
随着短视频形式的兴起与发展,短视频时常活跃用户不断攀升,且用户使用时长不断增长,因此,如何根据短视频内容自动生成标签以做到更精准的视频推荐变得尤为重要,而根据短视频内容自动生成标签属于视频帧多标签分类的领域的问题。
在现有的计算机视觉领域中,主要采用图像二分类和多分类的方法,但这些方法主要用于单标签分类生成,而视频帧中的标签通常属于多个不同的类别,使用图像二分类和多分类的方法对视频帧中的场景进行标签识别时,常会出现存在感较低的标签,即该标签在视频帧中出现场景较少或者因为视频帧中的场景遮挡造成该标签并不明显,而图像二分类和多分类的方法常将该类存在感较低的标签反馈给用户,造成视频帧标签集合繁多且不准确的问题。
实现思路