本技术公开了一种基于时空融合网络的人脸表情识别方法,包括如下步骤:首先,对输入图像进行预处理;然后,构建了可以从时域和空域两个不同维度上分别学习人脸表情特征的时空融合网络,利用训练样本对时空融合网络的两个模块分别进行训练,最后利用一种基于微调策略的最佳融合方法将不同维度学习到的表情时空特征有效融合;测试时将待检测的人脸表情图像序列输入到训练好的时空融合网络中,得到表情的分类类别。本发明具有如下有益效果:本发明使用基于微调策略的最佳融合方法,能够更加有效的将学习到的表情时空特征进行融合,提高了对表情特征的学习能力;能够提高面部表情识别的准确率。
背景技术
面部表情是人类传递情感状态最自然和普遍的信号之一,表情识别在商业、安全、医学等领域有着广泛的应用前景,能够快速准确地识别出面部表情对其研究与应用具有重要意义。目前针对面部表情识别的研究大致可以分为两类:基于静态图像的方法和基于动态视频序列的方法。基于静态图像中的人脸表情识别只需要利用表情的峰值图像就可以进行识别。但是,表情产生的本身对应着一个连续的面部肌肉运动过程,仅使用其中的静态峰值表情图像会丢失一些重要信息,例如:面部表情的运动信息。因此,为了进一步集成表情的时域特征,我们需要研究基于动态视频序列的人脸表情识别方法,以提升算法的表情识别性能。
近几年,研究人员提出了一系列基于视频序列的人脸表情识别方法,但是作为特殊的面部分析任务,人脸表情识别具有其自身的特点。特别地,人脸表情可以被认为是人脸上关键组件(例如眉毛、眼睛,鼻子和嘴巴)的动态变化,这些关键组件的变化组合在一起即形成了整个人脸表情的变化。针对人脸面部关键组件的动态变化,已有方法尝试通过手工设计或者深度学习的方法从连续帧中提取出时域上的动态表情特征。但是,一方面,手工设计的特征通常难以正确提取出蕴藏在面部图像序列中的时域特征;另一方面,直接将图像序列输入到深度神经网络中,无法有效利用人脸关键组件的先验知识,不利于表情时域特征的学习。
实现思路