本技术揭示了一种深度骨架特征驱动的精准运动识别技术与设备,涉及读取骨架数据,利用图卷积网络提取深层姿态特征,并将其输入时间边界分类器以实现细粒度的体育运动检测。
背景技术
时序动作检测任务的目标是在未经修剪的视频中提取动作片段的起始时间、结束时间以及相应的动作类别。这一任务长期以来一直备受关注,被视为计算机视觉领域的重要挑战之一。近年来,随着深度学习技术的迅速发展,研究人员不断提出新的方法和技术来解决这一问题。深度学习技术的应用为时序动作检测任务带来了新的突破和进展,为解决这一难题提供了有力的工具和方法。这些方法大致分为两类,即阶段式和联合式方法。在阶段式方法中,时序动作提名生成任务成为备受关注的视频动作理解任务之一。随着对这一领域的深入探索,细粒度时序动作检测逐渐崭露头角,成为新的研究热点。这个领域的发展为时序动作检测带来了更多可能性和新的研究方向,为未来的研究和技术突破提供了广阔的空间。
与传统的时序动作检测相比,细粒度动作检测要求更为详细和准确的动作表示,以实现对子动作开始和结束时间戳的更加精准的定位。在细粒度时序动作检测的研究中,研究者面临着多重复杂的挑战,包括背景干扰、高度相似性动作的区分以及动作持续时间的变化等。这些挑战使得细粒度时间动作检测的研究变得更为复杂,需要更高水平的方法和技术来应对这些问题。为了克服这些挑战,最近的研究探索了各种创新方法。其中,有研究者提出了一种创新的局部一致可变形卷积方法,通过利用感受野的变化并施加局部相干约束,有效地捕获视频中的运动信息。该模型通过联合学习时空特征,避免了使用独立的空间和时间流的传统方式。与在像素空间(例如光流)中学习时间分量不同,该方法从特征空间学习,使得生成的特征更加灵活,可与其他长时间建模网络结合使用,例如 ST-CNN、GC-DCNN和 MS-TCNN。有研究提出了一种创新性的学习方法,通过对上下文中序列之间的差异进行比较,为弱监督时序动作检测任务引入了一种基本的归纳偏差,有助于准确识别连贯的动作实例。具体而言,通过可微动态规划公式,设计了两个互补的对比目标,即细粒度序列距离 Fine-grained Sequence Distance(FSD)对比和最长公共子序列 Longest CommonSubsequence(LCS)对比。在 FSD 对比中,通过匹配、插入和删除操作符,模型能够挖掘序列之间的微小差异。而在LCS对比中,通过寻找两个视频之间的最长公共子序列,实现了对共同动作模式的挖掘。这两个对比模块相互增强,共同享受区分动作背景分离的优势,同时缓解了分类和定位之间的任务差距。
然而,现有的时序动作检测方法大多基于 RGB 数据,通过设计外观和光流模型,从图像序列中提取特征,以区分目标动作实例与背景。然而,由于人体尺度和外观的变化、子动作类别之间的高相似性以及统一背景的存在,这些方法在细粒度体育动作检测任务上表现不佳。
实现思路