本技术介绍了一种采用Mamba架构的轻量级高精度人体姿态估计方法,旨在降低计算成本的同时确保高准确度。该方法属于人体姿态估计技术领域,通过优化神经网络架构实现计算效率与精度的双重提升。
背景技术
人体姿态估计是指通过检测和定位人体上的关键点来重建人体姿态的过程。该任务是计算机视觉领域的重要挑战之一,对于许多计算机视觉应用有着关键性的作用,如动作识别、智能视频监控和人机交互。人体姿态估计的实时性和高精度是计算机视觉中的重要挑战。实时性要求系统能够在极短的时间内处理图像并给出姿态估计结果,而高精度则要求系统能够准确地定位人体的关键点,保证姿态估计的精确度。这两者之间往往存在权衡,如何在保证高精度的同时满足实时处理的需求,是当前技术发展的重点。
现有用于人体姿态估计的方法大多数无法在保持高精度的同时满足实时处理的需求,比如,基于视觉Transformer(ViT)的简单基线模型VitPose来用于人体姿态估计,该方法通过引入ViT模型来代替传统的卷积神经网络(CNN),展现了Transformer在人体姿态估计任务上的潜力。然而,虽然VitPose在精度上取得了较为出色的表现,特别是在一些大规模数据集上展现了极高的精度,但其在实时处理方面仍然存在显著挑战。VitPose的模型结构相对较大,计算复杂度较高。Transformer模型本身对计算资源和内存的需求较大,尤其是当输入图像的分辨率较高时,计算开销会随之显著增加。因此,VitPose虽然能够在一些数据集上达到高精度,但它在实际应用场景中难以在保持高精度的同时满足实时处理的要求,尤其是在资源受限的设备上。
实现思路