本申请公开了一种基于多模态大模型的对话情感识别方法及设备,涉及情感识别领域,该方法包括在当前场景中获取对话中的所有语句集合;每一语句中包括音频、视频和文本三个模态;构建对话情感识别模型;所述对话情感识别模型包括:特征提取层、双向门控单元、多模态大模型、BERT语言模型、模态信息互补模块、基于语义图的多层残差图卷积网络以及全连接层;根据对话中的所有语句集合,采用训练好的对话情感识别模型,得到情感识别结果。本申请能够提高对话情感识别的准确性与稳健性。
背景技术
近年来,人工智能(AI)技术的发展已经将许多看似科幻的概念变成了现实。例如,越来越多的家用机器人具备了根据用户要求提供安慰的能力。处理这种请求的时间取决于机器的智能水平和人机交互的效率。因此,效率已经成为提升机器智能的关键指标。使机器更加人性化,即让它们能够在用户情绪变化时迅速调整行为,如在用户情绪低落时提供安慰,在智慧课堂中能及时提醒分神的学习者等,在智能机器人领域尤为重要。此外,精确捕捉用户情感转变可以增强人机交互,从而为用户提供更高级别的人工智能服务。精准识别用户情感状态不仅是提升机器功能的必要条件,也是人工智能领域的一个重要研究重点。因此,情感识别任务在许多领域起着关键作用,并受到学者们广泛关注。
对话情感识别(ERC),也称为对话情感检测,是通过分析说话者在对话背景中传达的信号(如文本、音频或面部表情),来辨别说话者的情感状态的任务。ERC在多个领域中具有显著的潜力,包括:(i)客户服务:ERC通过识别和回应用户的情感状态,促进了用户与客服的互动,从而改善了整体满意度。(ii)社交媒体分析:在社交媒体领域,ERC促进了对用户情感的捕捉和分析,使公司能够收集其产品或服务的用户满意度。(iii)教育技术:ERC能够及时检测课堂中每个学生情感的变化,并向教师提供反馈,为调整教学方法提供宝贵的情感基础。(iv)医疗保健:在医疗保健领域,它也可以在远程医疗咨询中评估患者的情感健康状况,为医疗专业人员提供进一步检测的见解。(v)人机交互:ERC使人机交互更直观和响应灵敏,使虚拟助手和聊天机器人能够有效地识别和适应用户的情感。总体而言,在对话中识别情感的能力有助于人工智能在广泛的语料背景下实现更强的共情和更有效的沟通,这种能力在教育技术领域显得格外重要。
在教育技术领域,ERC技术被广泛应用,旨在提高教学效果和学生体验,大致可以分为两类,其中一种是基于自然语言处理(NLP)的情感分析,通过分析学生在课堂上的言辞和语气,识别其情感状态。这使得教育者能够更好地理解学生的情感反馈,及时调整教学策略,提供个性化的学习支持。另一种是基于音频和视频的情感识别,通过分析学生的语音特征和表情变化,识别其在学习过程中的情感变化。这种技术可以在远程教学中应用,通过语音识别技术实时捕捉学习者的情感,为教育者提供调整教学方法的依据。然而,以上技术存在一些天然劣势。首先,以上两种方法都依赖于时序建模,在对话过长时,时序建模由于长程依赖问题无法获取很好的特征表示,导致情感的识别不够精准。其次,随着多模态数据的广泛应用,多模态对话情感识别已经成为研究热点。传统的情感识别主要关注单一模态,但在实际对话中,人们通过文本、语音、视频等多种方式进行信息交流。多模态对话情感识别旨在利用多模态数据,提供更丰富、全面的情感表示。在对话中,情感往往通过多种方式表达,且受到上下文、模态间关系的影响。通过整合多模态数据,可以更全面地理解对话上下文,提高对情感的准确理解。传统的多模态情感识别通过不同的特征融合手段将不同模态的数据进行融合,忽略了模态内部存在天然共享和独有的信息。这些信息之间可能存在着某种关联,会影响情感的判断,其次,传统的基于图的方法大多数只作为基于时序建模方法的延伸,简单的把多个模态信息构建成图并不能充分挖掘影响情感转变的关键因素。
关于学习者的文本、语音、视频三种模态数据,均隐含了当前对话中该学习者的情感状态,如何利用三种模态的数据进行高质量的表示学习,直接影响到最后产生的情感判断准确与否,而其中亟需应对的两大挑战分别为多模态细粒度情感语义信息的理解与长时序复杂学习者对话上下文建模,因此相较于传统的时序建模法,融合多模态大模型(Multi-modal Large Language Models, MMLLMs)及图表示学习来进行对话建模,有着天然的优势。具体来说,多模态大模型集成了各模态特征编码器、注意力特征融合机制、大语言模型以及外接子任务模型等关键组件,其在视觉-语言、语音-语言等跨模态语义对齐前提下,能够准确处理复杂的跨模态指令,具备高阶细粒度的多模态语义理解能力,该能力可服务于诸多跨模态下游任务,如视觉理解与问答、像素级图像或视频编辑、语音人机交互等。通过引入多模态大模型,可借助其对学习者多模态对话数据中潜在情感线索的细粒度理解,获取与情感状态判断直接相关的情感语义信息,实现模型推理过程中多模态细粒度的情感线索语义信息增益,进而有效提升复杂教学情境下对话数据的表征质量。图表示学习在处理复杂的非线性关系和结构化数据方面表现优越。许多实际问题可以通过基于图的建模来更好地表示,例如社交网络、生物信息学中的分子结构,以及知识图谱等。传统表示学习可能无法有效捕捉这些复杂的关系。同时,图表示学习能够考虑节点与其邻近节点之间的上下文信息。这使得学习到的表示更能反映实体或事件与其周围环境的关系,有助于更准确地表达语境;此外,图表示学习的方法通常更具通用性,能够适应多种不同的任务。这种灵活性使得图模型在处理各种领域的问题时更为适用。因此,图表示学习一直是流行的机器学习技术之一,有大量的研究者在这一方面进行研究工作。在一个对话图中,通常将一个对象视为一个节点,用节点之间的边来表示对象之间的关系。具体的,将对话中的单个语句的三种模态视为三种不同的节点,基于不同的语义背景,形成不同类型的边,对于多模态数据,图表示学习通过以上不同类型的边将每一种模态的特征都转化为边与节点之间的关系,从而将三种模态纳入考量。
目前,多模态大语言模型及基于图表示学习的算法已经取得了长足的进步,但,常见的模态信息交互方法主要分为早期融合、晚期融合以及交叉学习融合等,其中早期融合的方法先从每种独立模态中提取特征表达,将每种特征通过对应位置元素相乘相加等方法混合起来,缓解了不同模态中原始数据表示不一致问题。晚期融合针对不同模态利用不同模型进行训练,再通过最大值结合、均值结合或者集成学习等方法将多个模型的学习结果输出,这种方式解决了模态数据处理的异步性,提升模态的可扩展性,但是忽略了各个模态之间的相互关联,缺少共享信息的表示。交叉学习融合通过将不同模态的特征表示映射到共同的语义表示空间,加强了模态之间共享信息的传递,但是无法区分共享信息中的冗余信息。多模态特征的深度融合是ERC技术的关键环节之一,该部分的设计直接关乎最终情感状态类别的推理准确率。为此,传统基于深度神经网络的多模态情感识别方法往往通过深层表征与跨模态共享语义空间学习来对齐多模态特征语义,以期在跨模态信息一致性学习与信息互补基础上,有效地融合跨模态特征并推理潜在的情感类别,然而此类方法一般采用损失函数的设计及特征单阶段简单融合(早期、晚期融合等)来实现跨模态特征语义对齐与互补利用,容易导致各模态中蕴含的情感语义信息(模态特定语义)损失与误解;此外,现有ERC方法仍然存在对各模态情感语义信息感知粒度不足的问题。以上两项局限致使现有ERC方法难以在复杂教学与认知交互情境中准确且稳健地识别学习者情感状态。
尽管传统的图神经网络GCN已经很成功,基于GCN的变种卷积网络如GCN2,GraphSage等也在算法复杂度上有所提升,但总体而言,这些模型有所不足,例如GCN存在过平滑的问题,当网络层数堆叠之后,模型性能明显下降。这种现象限制了传统的图卷积网络的发展,无法获得对原始数据的最大利用,同时在许多大型的对话场景下,这些传统的网络模型无法区分出哪些信息是长久影响对话人的情绪,即对话中的长期话题因素,哪些信息是对话人情绪突变原因,即对话中的短期敏感信息。
但从总体上看,利用现有技术中对学习者进行对话情感识别的任务的准确度与稳健性还有待提高。
因此,基于上述问题,亟需提供一种新的对话情感识别方法,以能够提高对话情感识别的准确性与稳健性。
实现思路