本技术介绍了一种结合CLIP和多模态掩码提示学习的面部动作单元识别方法。该方法通过以下步骤实现:首先,设计基于AU先验位置的多模态共享AU提示,以提高识别准确性。
背景技术
面部表情识别在情感计算、人机交互等领域具有广泛应用。面部动作单元(ActionUnit,AU)是描述面部表情的基本单元,准确识别AU对于理解人的情绪状态至关重要。然而,现有的AU识别方法通常需要大量标注数据,而标注过程耗时、昂贵且容易出错,限制了AU识别性能的进一步提升。
由于AU的局部性特点,许多方法尝试采用区域的人脸特征进行AU识别。PAttNet裁剪特定AU的面部区域,并采用不同的CNN进行编码,通过注意力机制对每个块加权进行AU识别。GLEE-Net设计了一个局部分支,专注于特定的局部面部区域。JAA-Net联合进行AU识别和人脸特征点识别,预测的特征点用于计算每个AU的注意力图。然而此类方法忽略了不同面部肌肉之间的一些依赖关系。例如,高兴通常可以由AU6(脸颊提起),AU12(拉动嘴角),AU25(嘴唇微张)的组合来表示。
实现思路