本技术介绍了一种结合惯性测量单元(IMU)数据和深度学习算法的视频稳定技术。该技术应用于图像处理领域,其核心在于深度神经网络模型的训练,该过程包括收集原始图像序列以构建t时刻的数据集,并利用这些数据进行模型训练,以实现视频内容的稳定输出。
背景技术
近年来,车载摄像机和随身携带的视频记录仪在公共服务、行政执法、公安、交警等领域应用越来越广泛。在这些场景由于摄像机不是固定安装,因此都会遇到摄像机随机抖动的问题。继而会造成采集的图像产生随机的抖动。观看这种视频会造成明显的晕眩感,用户体验非常差。
视频图像的运动主要有两种,一种是摄像机本身的载体转向造成的运动;一种是载体随机的抖动(如车辆发动机造成的振动,手臂的轻微颤动等);前者是正常的运动,不需要抵消。后者是真正需要补偿的运动。至于如何区分出视频中的两者运动已有很多研究,本发明不涉及这方面的问题,只解决如何更好补偿第二种随机抖动的问题。
补偿随机抖动,目前主要有两种方式:1)在摄像机上安装惯性测量单元(inertialmeasurement unit)IMU,实时采集摄像机的角速度和加速度数据,然后根据摄像机的内参矩阵等参数,估计出图像中的静止目标在前后两帧之间的偏移量。这个偏移量一般是水平(x方向)、垂直(y方向)方向上位移的像素数以及垂直画面方向(z方向)的旋转角度。然后根据这些估计的参数,变换出补偿之后的图像。2)直接根据图像内容对图像进行补偿。找到画面中的特征点,然后在前后两帧图像之间匹配这些特征点,获取一定数量的特征点对。然后根据特征点对估计出两帧之间的变换(一般采用仿射变换或者透视变换)参数。然后根据这些估计的参数,变换出补偿之后的图像。
这两种方式都能在一定程度上起到图像稳定的效果,但也有各自的缺点。对于第一种方式,由于IMU自身的误差、生产安装过程的误差等因素,很难精确的估计出准确的角速度和加速度数据,因此不能做到很准确的图像补偿,影响了最终图像稳定的效果。对于第二种方式,理论上如果特征点对匹配的很准确,则能非常准确的估计出补偿参数,达到最优的补偿效果,但实际应用中会有各种限制,无法做到很准确的特征点匹配。比如:在画面本身比较平坦时(比如对着一面白墙),很难找到足够数量的特征点;在画面抖动幅度较大时,正确特征点对的距离太大,用图像处理的方法进行特征点匹配会有很大问题,搜索半径必须设置的很大,会带来运算量平方级的增长,在一些廉价的边缘设备上很难提供足够的算力计算。另外搜索半径的扩大会明显增加误匹配的概率,从而影响正确变换参数的估计。
实现思路