一种基于双聚合网络增强的手部位姿估计方法,从手部深度图像生成手部点云,将手部深度图像和点云输入到局部编码融合模块生成融合的图像特征和点云特征;将融合的3D点云特征输入初始状态生成器,以初始化隐藏状态;将隐藏状态输入回归模块获得关节点的初始估计;初始估计与融合的图像特征和点云特征,输入点云图像一致性聚合模块,生成增强点云特征;增强点云特征与初始估计输入重采样模块输出高维手部关节点特征;增强点云特征与高维手部关节点特征和隐藏状态共同输入动态图增强聚合模块得到增强的高维关节点特征;将增强的高维关节点特征输入回归模块中,获得最终手部关节点坐标位置。本技术能够改善遮挡情况下的手势姿态估计,增强手关节输出。
背景技术
3D手势姿态估计是人机交互应用中的关键技术,在虚拟现实(VR)、增强现实(AR)和机器人技术中得到了广泛应用。这个研究领域在计算机视觉中已经成为一个焦点,近年来,经济实惠的深度传感器的进步重新激发了人们对这一领域的兴趣,然而,3D手势姿态估计面临着几个挑战,包括数据的高维性、手部姿态的显著变化、手指之间微妙的外观差异以及严重的自遮挡,这些问题妨碍了3D手势姿态的精确和稳健估计。
随着深度学习的出现,基于深度学习的方法已主导3D手势姿态估计任务。这些基于深度学习的方法可以根据输入数据的格式分为两类:利用2D图像的方法和利用3D数据的方法。基于图像的方法通常使用2D深度图像作为输入,并采用2D卷积神经网络(CNN)从这些图像中提取局部特征,2D卷积操作的高度并行性使得它们能够在现代硬件上高效计算,从而提高了这些方法在实际应用中的性能和速度。相对而言,基于3D数据的方法将2D深度图像转换为3D体素表示或3D点云表示,然后利用3D卷积网络或点云网络进行手势姿态估计。这些方法直接处理3D坐标信息,而不是将其投影到2D平面上,因此,它避免了投影造成的信息损失,更好地保留了原始数据的空间几何结构。
尽管在基于图像和点云的3D手势姿态估计方法上取得了显著进展,但每种方法仍然存在特定的局限性。基于图像的方法通常无法充分利用深度数据的3D特征,难以处理将2D深度图像转换为准确3D手势姿态所需的复杂非线性映射。此外,这些方法受限于2D卷积神经网络(CNN)的局部感受野,限制了其捕捉长距离依赖和交互的能力。相反,基于点云的方法需要构建密集和动态的局部邻域,并涉及复杂的特征提取过程,这增加了计算成本并对实时性能和可扩展性提出了挑战。点云的非结构化特性进一步复杂化了局部特征的提取和配准,可能影响模型在各种手势姿态上的泛化能力。此外,许多现有方法依赖于非递归架构,缺乏适应不同资源限制和准确性要求所需的灵活性,这一局限性可能阻碍这些方法在适应性和精确度至关重要的多种应用中的有效性。
实现思路