本技术融合计算机视觉与自然语言处理技术,提出一种创新的视频片段句子定位算法,依托渐进式交互和多模态对齐技术。该算法首先对与视频内容相关的查询句子进行处理,随后通过一系列步骤实现精准定位。
背景技术
视频片段句子定位在2017年的ICCV会议上被第一次被提出,随后立刻受到了大量研究人员的关注,2017年,Gao等人通过对Charades数据集添加自然语言查询句子注释得到Charades-STA数据集。自此之后大量的视频片段句子定位领域的研究开始涌现,伴随着数据集的不断扩充,视频片段句子定位算法在各个数据集上的性能也在逐渐提升。
目前的主流方法主要分为两大部分,基于提案的方法和无提案的方法,基于提案的方法基本都遵循这个流程,首先对视频执行某种采样算法,采样算法应该尽可能的覆盖整个视频片段的可能性,随后将采样得到的采样片段作为候选片段,将这些候选片段与给定的自然语言查询句子进行评分,选出评分较高的一个或几个作为最终结果,早期的候选片段生成方法最初依赖于手动生成的采样片段,Hendricks等人提出的MCN方法将视频分成多个5秒的片段,并通过连续的片段组合得出最终候选片段,该采样方法虽然能够将视频完整的覆盖,但该方法有一定的局限性,对于5s内部之间的片段并不能进行覆盖;随后,Gao等人提出的CTRL方法通过采用多尺度滑动窗口来生成候选片段,该采样方法能够获得更加全面的候选片段。但该方法对于多模态融合部分,仅仅采用简单的加法、乘法与特征拼接,这使得多模态特征难以充分融合,简单的操作并不能完全对齐两种模态之间的特征;袁艺天等人提出了一种基于精细化多模态关联的视频片段句子定位算法,通过多模态共注意力机制进行视频与自然语言查询句子两个模态之间的融合;仅仅依赖候选片段与自然语言查询句子的信息,算法能够达到的效果有限,因此很多研究人员开始发掘其他信息;比如Jiang等人提出的SLTA方法通过捕获对象级交互信息作为补充信息来更加精确的对齐两个模态的特征,Ge等人提出的ACL方法将活动概念识别为附加信息,进一步增强视频和文本的特征交互;Xu等人提出的QSPN方法提供了不同的解决方案来更好地对齐两种模态,它首先将视频信息与文本信息交互,然后生成候选片段,通过提前信息融合得到更好的融合效果;基于提案的方法由于需要生成大量的候选片段而这些候选片段之间存在大量的冗余,为了减少计算资源的浪费,Zhang等人提出了2D-TAN方法解决了候选片段的冗余问题;该方法使用稀疏采样在保证尽可能全面采样出候选片段同时减少冗余片段。
基于提案的方法虽然拥有较好的效果,但模型的计算量较大,因而一些研究人员提出了不依靠候选片段直接预测视频中对应的开始时间和结束时间,比如Yuan等人提出的ABLR方法通过基于视频注意力权重的回归和基于视频特征和自然语言查询句子特征的回归来直接预测相关视频片段的开始时间和结束时间,一个视频中包含大量的视频帧,但正样本仅仅为开始所在帧和结束所在帧造成数据不平衡问题,因此一些研究人员就这一问题进行研究;比如Lu等人提出的DEBUG算法通过将开始帧与结束帧之间的帧作为正样本并密集的预测其中每个帧到边界的距离,以此来减轻数据不平衡问题,随后的He等人发现视频片段句子定位的过程与强化学习相似,设计出RWM-RL算法通过一个不断学习的滑动窗能够得到视频中相关片段的开始时间与结束时间,这些问题可以总结如下:(1)视频语义信息没有得到充分挖掘;(2)视觉信息与文本信息未能充分对齐。
因此,本发明提供了一种基于渐进式交互和多模态对齐的视频片段句子定位算法来解决上述问题。
实现思路