一种基于动态图卷积网络的人体姿势估计方法,属于人体姿势估计领域,包括以下步骤:第一步、简化视频中人体结构,构建人体骨骼关键点结构图;第二步、定义一个图结构来表示人体关节之间的空间关系;第三步、定义一个图结构表示人体各关节之间的运动关联性;第四步、利用动态时空图卷积,构建一种动态图卷积网络;第五步,进行3D人体姿势行为数据增强;第六步,利用3D人体姿势数据在虚拟场景中构建人体行为数据。本技术提升对关节之间复杂关系的建模能力,提高模型的鲁棒性,更精准地识别复杂行为。
背景技术
人体行为识别在计算机视觉中是一项具有挑战性的任务。据输入数据处理方法的不同,人体行为识别可分为基于RGB视频和基于3D骨架数据的方法。基于RGB视频通常通过捕捉视频中时空和光流等信息获取人体相关的运动信息,实现人体行为的识别。然而,这些基于RGB视频的识别方法存在一些局限性,特别是在室内监控环境中,由于摄像头安装的位置通常位于整个空间的斜上方,因此使用原始视频的RGB图像获取人体行为信息是十分困难的。此外,在这种环境下还可能出现时空信息丢失的问题,进一步增加人体行为识别的难度。
相比之下,从视频中得到人体骨骼序列信息具有更强的鲁棒性,并且能消除背景信息的干扰。人体骨骼模型的各个关节点之间存在着强烈的相关性,可以提供丰富的身体结构信息,并且通过连续帧的骨骼数据可以获取时序信息。骨骼数据具有较低的维度,从而降低了输入数据的复杂性,以提高识别的效率。基于骨骼数据的方法不仅提高了识别的准确性,还能够更好地应对各种复杂环境中的挑战,尤其是在像电梯轿厢这样的特殊场景中。通过骨骼模型进行人体行为识别,不仅可以克服传统RGB视频方法的局限性,还能提供更加可靠和精确的识别结果,从而在计算机视觉应用中发挥重要作用。
得益于各种神经网络的发展,利用神经网络可以高效处理低维度的骨骼数据。相关研究如下:Ail等利用3D姿势估计处理视频数据,构建了一种双三维姿态基线深度神经网络,用于电梯内乘客跌倒行为识别;Lan等首先分别通过空间域和时域提取电梯乘客行为的特征,然后构建一种双流卷积网络识别电梯乘客的异常行为。然而,这些监督式视频检测方法在实验室环境中表现出色,但其训练出来的模型泛化能力较弱,难以用于不同视角下的人体行为视频。这主要是因为这些模型的训练需要大量的训练数据,并且每种训练数据集是平衡的。
因此,选用合理的方法进行人体异常行为的数据增强是十分关键的。现有的研究方法通常采用通过图像合成和直接生成姿势来进行姿势增强。其次,在一些特定场景下的研究可以通过组织实验人员进行特定动作来获取相应数据集。这些方法生成的数据集能够用于人体行为识别的模型,提升模型的性能。
虽然上述方法可以生成人体行为数据用于人体行为识别,使得他们的研究在人体行为数据增强领域做出了一定的贡献。但是目前人体行为数据增强的研究存在的挑战包括:(1)使用模型训练的方法生成的行为数据往往不合理,或者对于模型训练来说过于简单,无法有效提升模型准确性。(2)部分危险场景或不利于人身安全的异常行为难以通过组织人员实验的方法获得新数据集,特别是在电梯轿厢内,一旦做出危害电梯运行状况的异常行为,可能会导致设备损坏和人员伤亡。(3)生成的人体行为数据多样性不足,无法有效提升模型的泛化能力。
实现思路