本技术公开了一种基于特征共用的DeepSORT目标跟踪方法。针对DeepSORT跟踪算法存在的特征提取网络较为简单且耗时严重、卡尔曼滤波器对噪声鲁棒性差以及级联匹配在强大的跟踪器中对跟踪精度存在限制的问题,本算法分别从三个方面进行了改进,在特征提取模块中沿用检测网络YOLOv5网络,并在检测头部分增加外观信息的输出,在运动估计模块中对卡尔曼滤波算法中的噪声矩阵实现自适应计算并增加了高斯过程回归模块来对目标检测器失效的情况下的跟踪轨迹做出插值,在轨迹关联模块中采用一种基础的线性匹配策略替换掉原有的级联匹配,在此基础上提出了YNGB‑DeepSORT网络来实现高效的目标跟踪。
背景技术
目标跟踪作为计算机视觉领域一个重要的研究方向,在各种领域都有着广泛的应用。目标跟踪的任务主要是在给定的一个视频序列中通过人为给定或者前序检测算法给定的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。
DeepSORT在SORT的基础上做出了三处改进,首先,DeepSORT使用一个简单的卷积神经网络提取目标的深度外观特征,并将这些特征作为跟踪的输入并存储起来以便于后续的相似度计算,这使得DeepSORT极大的提升了对遮挡目标的再现重识别的能力。其次,DeepSORT将SORT中原有的用于运动特征度量的欧氏距离替换为了马氏距离,通过增加协方差矩阵的运算对方差进行了归一化的处理,使得网络可以更好的度量目标的运动特征。余弦距离不同于马氏距离对差异度的距离度量,是一种针对方向的相似度度量,它被用来进行外观特征的相似度计算。最后DeepSORT使用级联匹配,它会根据一个预设的参数来对跟踪器划分先后顺序,参数小的先来匹配,参数大的后匹配。虽然DeepSORT最终实现了较好的跟踪效果并且极大地降低了SORT算法中存在的IDswitch问题,但是仍然存在以下几个问题:
1.DeepSORT中使用的特征提取网络较为简单,仅仅是由卷积层和残差组件组成的一个CNN网络,这样的网络在较为简单的场景中使用一般可以满足任务的要求,但是如果在场景复杂的任务下,它所能提取到的特征是极为有限的,尤其是在两个目标相似度比较高的情况下,仅仅依靠这样一个特征提取网络提取到的特征作为约束往往是不能满足需求的。其次,虽然DeepSORT在一些性能强大的GPU上可以满足实时性的要求,但是如果移植到嵌入式板卡上,往往很难满足实时性的要求。
2.DeepSORT中使用卡尔曼滤波器进行运动估计,而传统的卡尔曼滤波算法中,其噪声矩阵是一个常数矩阵,然而,在一些复杂的场景中,由于目标检测算法的一些不稳定性,噪声规模应该是时刻变化的,也就是说噪声的规模应该随检测的置信度的变化而变化。而且针对于检测器失效的情况下,如果只使用卡尔曼滤波来进行线性插值模拟目标的运动轨迹,这样的结果往往是不准确的。
3.级联匹配被用来处理跟踪目标的优先级问题,而随着跟踪器变得更强大,级联匹配对易混淆的关联变得更强大,这样额外的先验约束反而限制了匹配模块的性能及精度。
实现思路