本技术公开了一种基于联合标记分布学习的面部抑郁识别方法,包括将面部图像作为训练数据,每张面部图像标注为一个单标记BDI‑II分值,作为其所对应的描述度,通过高斯分布生成每张面部图像的抑郁分值分布;设计一个68维输出的深度网络模型,前64维用于学习抑郁分值分布,每张面部图像包括学习真实的抑郁分值和邻域内的分值;后4位用于学习抑郁等级分布,抑郁等级分布包括真实的抑郁等级的描述度和其他等级的描述度,设计一个多任务联合标记分布学习框架,联合学习抑郁分值分布与抑郁等级分布。解决单标记BDI‑II分值标注的不确定性问题并缓解了训练数据不足的问题;通过联合标记分布学习在训练过程中既考虑抑郁分值也考虑抑郁等级,提高抑郁诊断的性能。
背景技术
抑郁症是一种常见的精神障碍,得了抑郁症的人通常会产生悲伤、自我否定的情绪,对人的健康和生活造成严重危害。临床上而言,抑郁症的诊断通常依赖于心理医生的主观评估,这一过程需要专业的心理知识,难以进行早期抑郁症诊断的大规模推广。因此,近年来自动化抑郁症诊断在临床研究中引起了广泛关注,尤其是随着深度学习与计算机视觉相关技术的进步,基于面部图像的抑郁识别方法吸引了研究人员的广泛关注。随着摄像设备的普及,研究人员能够获取到大量人脸图像数据,将这些人脸图像用于构建面部抑郁识别系统,并部署于终端系统,有望实现早期抑郁症诊断的大规模推广。
总体而言,现有方法大抵将面部抑郁识别问题当作一个单标记Beck DepressionInventories (BDI)-II分值学习与预测问题。BDI-II分值取值为0到63,数值越大表示抑郁程度越严重。基于深度学习的面部抑郁识别方法首先利用单标记BDI-II分值标注的人脸图像数据训练一个深度神经网络(如卷机深度网络或Transformer),接着利用训练好的网络对新的人脸图像的BDI-II分值进行预测。然而,现有方法仍面临着以下三点挑战:
第一是缺少充足的有标注的人脸图像数据集。BDI-II分值是根据21个BDI-II问卷进行评估(每个问卷的评分范围为0到3)得到,因此数据集的标注过程较为困难,获取到充足的有标注数据集的代价高昂。缺少充足的有标注数据集导致了现有基于深度学习的面部抑郁识别方法性能不足,识别精度难以满足实际抑郁症诊断的应用需求。
第二是忽略了BDI-II分值标注存在的不确定性与不准确性。BDI-II问卷的不同选项间具有一定的模糊性,受评估者也通常会选择一个差不多的选项,这就导致BDI-II分值本身就具有一定的不确定性与不准确。例如,一张BDI-II分值标注为20的人脸图像,也会有一定的概率标注为19或21。现有方法将BDI-II分值当作绝对正确的标记,忽略了标准过程存在的不确定性,导致识别性能不稳定。
第三是训练过程未考虑抑郁程度等级。现有方法的训练过程通常只通过BDI-II分值来训练一个预测模型,但实际应用中往往需要给出抑郁程度等级的诊断,例如轻度、中等、严重等不同等级。BDI-II分值与抑郁等级分别从细粒度与粗粒度衡量了一张人脸的抑郁信息,两者之间存在着强关联关系,然而现有方法在训练过程中却忽略了抑郁程度等级,导致模型在进行抑郁等级诊断时性能欠佳。
实现思路