本技术提出了一种弱监督时序动作定位方法和装置,利用语义与显著性知识协同传播技术。该方法涉及:1) 对未剪辑视频进行时序特征提取和显著性前景特征分析;2) 设计基本分支和显著性感知分支以增强动作定位准确性。
背景技术
视频时序动作定位是计算机视觉领域的研究重点之一,旨在未裁剪的视频中定位出所属动作类别发生的起止时间。它在实际生活中具有重要的应用价值和意义,如视频检索、视频异常内容检测、智能监控、智慧交通等领域。目前,视频时序动作定位网络的训练方式可分为全监督训练和弱监督训练,全监督时序动作定位的训练不仅需要视频包含的动作类别标签,还需要逐帧人工标注,但是在实际应用场景下,视频数据往往缺少帧级标注,而人工对海量视频进行标注需要很大的代价,在现实场景应用下使用全监督训练方法费时费力。为了克服逐帧标记的全监督时序动作定位模型的局限性,高效的弱监督时序动作定位方法应运而生,其只需要视频级分类标签便可进行训练。
现有的弱监督时序动作定位方法可以分为三类:第一类方法聚焦分类和定位之间的模式差异,该方法专注于生成更精细的伪标签片段来减少分类和定位之间的差异。第二类方法集中在前景片段和背景片段分离问题上,主要手段是使用不同的注意力机制使得前景和背景能够准确判别;第三类方法是突出学习判别式行为特征或是模糊行为特征的方法,该方法通过度量、擦除或是对比等手段学习判别性行为特征,缓解模糊性行为特征。前两类方法往往会暴露出只关注于最具判别性的动作片段上,模糊性片段容易被忽略的问题漏检或误检问题。
以上三类方法均能通过学习有效的损失函数取得一定的定位效果,但是往往受制于外观和运动特征的有限表示使得模型难以区分部分前景外观融入背景之中、时序画面变化剧烈的行为片段,导致仍存在动作检测误检和漏检的问题。因此,深入探索语义和显著性知识之间的可协作关系,在前景背景难以分离的片段中感知细微动作信息来提取前景,对于提高模型的视频时序动作定位能力有着重要的积极意义。
实现思路