本技术属于图像处理技术领域。提出了一种多尺度视频预测方法、系统、介质、产品及设备,将所述上一帧图像与所述当前帧图像分别输入至双分支光流模块的两个分支,得到运动特征和空间特征;根据所述运动特征和所述空间特征,得到融合特征,所述融合特征中包括下一帧图像与上一帧图像的反向光流、下一帧图像与当前帧图像的反向光流以及权重图;根据下一帧图像与上一帧图像的反向光流、下一帧图像与当前帧图像的反向光流以及权重图,确定下一帧图像的预测结果。本发明在不同尺度下捕捉动态物体的运动趋势与空间细节信息,并利用空间‑通道协同注意力融合策略对两分支特征进行深度交互,显著提升了视频预测的准确性和效果。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。
视频预测技术是计算机视觉和人工智能领域的一个重要分支,旨在根据已有的视频帧序列预测未来的视频内容。该任务不仅涉及复杂的时间序列建模问题,还要求在高维空间中理解物体的运动规律和场景的空间结构。视频预测在自动驾驶、机械臂操作、行为预测等多个实际应用中具有重要意义,准确的未来帧预测可以增强系统的场景感知能力,进而提升智能决策的精度与效率。
目前,主流的视频预测方法通常依赖深度学习模型来解决这些复杂问题。尽管近年来技术取得了一定进展,现有方法仍存在一些不足。例如,这些方法通常需要输入附加信息来提升预测精度,计算资源开销较大,且往往仅能捕捉到某一特定尺度的特征。因此,它们难以有效地获取空间细节和全局动态之间的高阶交互特性,在复杂场景下的预测准确性仍然有限。
实现思路