视频片段句子定位算法:渐进式交互与多模态对齐
2025-02-21 18:49
No.1342569035220656128
技术概要
PDF全文
本技术融合计算机视觉与自然语言处理技术,提出一种创新的视频片段句子定位算法,依托渐进式交互和多模态对齐技术。该算法首先对与视频内容相关的查询句子进行处理,随后通过一系列步骤实现精准定位。
背景技术
视频片段句子定位在2017年的ICCV会议上被第一次被提出,随后立刻受到了大量研究人员的关注,2017年,Gao等人通过对Charades数据集添加自然语言查询句子注释得到Charades-STA数据集。自此之后大量的视频片段句子定位领域的研究开始涌现,伴随着数据集的不断扩充,视频片段句子定位算法在各个数据集上的性能也在逐渐提升。 目前的主流方法主要分为两大部分,基于提案的方法和无提案的方法,基于提案的方法基本都遵循这个流程,首先对视频执行某种采样算法,采样算法应该尽可能的覆盖整个视频片段的可能性,随后将采样得到的采样片段作为候选片段,将这些候选片段与给定的自然语言查询句子进行评分,选出评分较高的一个或几个作为最终结果,早期的候选片段生成方法最初依赖于手动生成的采样片段,Hendricks等人提出的MCN方法将视频分成多个5秒的片段,并通过连续的片段组合得出最终候选片段,该采样方法虽然能够将视频完整的覆盖,但该方法有一定的局限性,对于5s内部之间的片段并不能进行覆盖;随后,Gao等人提出的CTRL方法通过采用多尺度滑动窗口来生成候选片段,该采样方法能够获得更加全面的候选片段。但该方法对于多模态融合部分,仅仅采用简单的加法、乘法与特征拼接,这使得多模态特征难以充分融合,简单的操作并不能完全对齐两种模态之间的特征;袁艺天等人提出了一种基于精细化多模态关联的视频片段句子定位算法,通过多模态共注意力机制进行视频与自然语言查询句子两个模态之间的融合;仅仅依赖候选片段与自然语言查询句子的信息,算法能够达到的效果有限,因此很多研究人员开始发掘其他信息;比如Jiang等人提出的SLTA方法通过捕获对象级交互信息作为补充信息来更加精确的对齐两个模态的特征,Ge等人提出的ACL方法将活动概念识别为附加信息,进一步增强视频和文本的特征交互;Xu等人提出的QSPN方法提供了不同的解决方案来更好地对齐两种模态,它首先将视频信息与文本信息交互,然后生成候选片段,通过提前信息融合得到更好的融合效果;基于提案的方法由于需要生成大量的候选片段而这些候选片段之间存在大量的冗余,为了减少计算资源的浪费,Zhang等人提出了2D-TAN方法解决了候选片段的冗余问题;该方法使用稀疏采样在保证尽可能全面采样出候选片段同时减少冗余片段。 基于提案的方法虽然拥有较好的效果,但模型的计算量较大,因而一些研究人员提出了不依靠候选片段直接预测视频中对应的开始时间和结束时间,比如Yuan等人提出的ABLR方法通过基于视频注意力权重的回归和基于视频特征和自然语言查询句子特征的回归来直接预测相关视频片段的开始时间和结束时间,一个视频中包含大量的视频帧,但正样本仅仅为开始所在帧和结束所在帧造成数据不平衡问题,因此一些研究人员就这一问题进行研究;比如Lu等人提出的DEBUG算法通过将开始帧与结束帧之间的帧作为正样本并密集的预测其中每个帧到边界的距离,以此来减轻数据不平衡问题,随后的He等人发现视频片段句子定位的过程与强化学习相似,设计出RWM-RL算法通过一个不断学习的滑动窗能够得到视频中相关片段的开始时间与结束时间,这些问题可以总结如下:(1)视频语义信息没有得到充分挖掘;(2)视觉信息与文本信息未能充分对齐。 因此,本发明提供了一种基于渐进式交互和多模态对齐的视频片段句子定位算法来解决上述问题。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
高赞  杨浩  赵一博  马春杰  聂礼强  吴建龙  朱树磊  金恒  殷俊  汪萌
技术所属: 天津理工大学  山东省人工智能研究院  山东省计算中心(国家超级计算济南中心)  山东大学  浙江大华技术股份有限公司  哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)  合肥工业大学
相关技术
变压器呼吸器变色检测方法、装置、系统及电子设备 变压器呼吸器变色检测方法、装置、系统及电子设备
基于机器视觉和AR的虫害检测与管理系统 基于机器视觉和AR的虫害检测与管理系统
一种电路板的故障快速检测方法、系统及存储介质 一种电路板的故障快速检测方法、系统及存储介质
遥感影像检测方法、装置、电子设备及存储介质 遥感影像检测方法、装置、电子设备及存储介质
一种基于在网计算的流表压缩方法 一种基于在网计算的流表压缩方法
一种基于分段信道估计的通感一体化系统干扰消除方法 一种基于分段信道估计的通感一体化系统干扰消除方法
一种基于上半身姿态的驾驶员情绪状态检测方法及系统 一种基于上半身姿态的驾驶员情绪状态检测方法及系统
一种引入RBU的轻量化皮革表面缺陷显著目标检测方法 一种引入RBU的轻量化皮革表面缺陷显著目标检测方法
一种基于金字塔的SAR图像相干斑抑制方法 一种基于金字塔的SAR图像相干斑抑制方法
一种考虑多层级特征的多类别点云异常检测方法及系统 一种考虑多层级特征的多类别点云异常检测方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利