一种基于多模态大模型的对话情感识别方法及设备

123技术园

首页 / 技术内容

2025-02-24 10:18

No.1343527621631418368

技术概要

PDF全文

本申请公开了一种基于多模态大模型的对话情感识别方法及设备，涉及情感识别领域，该方法包括在当前场景中获取对话中的所有语句集合；每一语句中包括音频、视频和文本三个模态；构建对话情感识别模型；所述对话情感识别模型包括:特征提取层、双向门控单元、多模态大模型、BERT语言模型、模态信息互补模块、基于语义图的多层残差图卷积网络以及全连接层；根据对话中的所有语句集合，采用训练好的对话情感识别模型，得到情感识别结果。本申请能够提高对话情感识别的准确性与稳健性。

背景技术

近年来，人工智能（AI）技术的发展已经将许多看似科幻的概念变成了现实。例如，越来越多的家用机器人具备了根据用户要求提供安慰的能力。处理这种请求的时间取决于机器的智能水平和人机交互的效率。因此，效率已经成为提升机器智能的关键指标。使机器更加人性化，即让它们能够在用户情绪变化时迅速调整行为，如在用户情绪低落时提供安慰，在智慧课堂中能及时提醒分神的学习者等，在智能机器人领域尤为重要。此外，精确捕捉用户情感转变可以增强人机交互，从而为用户提供更高级别的人工智能服务。精准识别用户情感状态不仅是提升机器功能的必要条件，也是人工智能领域的一个重要研究重点。因此，情感识别任务在许多领域起着关键作用，并受到学者们广泛关注。对话情感识别（ERC），也称为对话情感检测，是通过分析说话者在对话背景中传达的信号（如文本、音频或面部表情），来辨别说话者的情感状态的任务。ERC在多个领域中具有显著的潜力，包括：（i）客户服务：ERC通过识别和回应用户的情感状态，促进了用户与客服的互动，从而改善了整体满意度。（ii）社交媒体分析：在社交媒体领域，ERC促进了对用户情感的捕捉和分析，使公司能够收集其产品或服务的用户满意度。（iii）教育技术：ERC能够及时检测课堂中每个学生情感的变化，并向教师提供反馈，为调整教学方法提供宝贵的情感基础。（iv）医疗保健：在医疗保健领域，它也可以在远程医疗咨询中评估患者的情感健康状况，为医疗专业人员提供进一步检测的见解。（v）人机交互：ERC使人机交互更直观和响应灵敏，使虚拟助手和聊天机器人能够有效地识别和适应用户的情感。总体而言，在对话中识别情感的能力有助于人工智能在广泛的语料背景下实现更强的共情和更有效的沟通，这种能力在教育技术领域显得格外重要。在教育技术领域，ERC技术被广泛应用，旨在提高教学效果和学生体验，大致可以分为两类，其中一种是基于自然语言处理（NLP）的情感分析，通过分析学生在课堂上的言辞和语气，识别其情感状态。这使得教育者能够更好地理解学生的情感反馈，及时调整教学策略，提供个性化的学习支持。另一种是基于音频和视频的情感识别，通过分析学生的语音特征和表情变化，识别其在学习过程中的情感变化。这种技术可以在远程教学中应用，通过语音识别技术实时捕捉学习者的情感，为教育者提供调整教学方法的依据。然而，以上技术存在一些天然劣势。首先，以上两种方法都依赖于时序建模，在对话过长时，时序建模由于长程依赖问题无法获取很好的特征表示，导致情感的识别不够精准。其次，随着多模态数据的广泛应用，多模态对话情感识别已经成为研究热点。传统的情感识别主要关注单一模态，但在实际对话中，人们通过文本、语音、视频等多种方式进行信息交流。多模态对话情感识别旨在利用多模态数据，提供更丰富、全面的情感表示。在对话中，情感往往通过多种方式表达，且受到上下文、模态间关系的影响。通过整合多模态数据，可以更全面地理解对话上下文，提高对情感的准确理解。传统的多模态情感识别通过不同的特征融合手段将不同模态的数据进行融合，忽略了模态内部存在天然共享和独有的信息。这些信息之间可能存在着某种关联，会影响情感的判断，其次，传统的基于图的方法大多数只作为基于时序建模方法的延伸，简单的把多个模态信息构建成图并不能充分挖掘影响情感转变的关键因素。关于学习者的文本、语音、视频三种模态数据，均隐含了当前对话中该学习者的情感状态，如何利用三种模态的数据进行高质量的表示学习，直接影响到最后产生的情感判断准确与否，而其中亟需应对的两大挑战分别为多模态细粒度情感语义信息的理解与长时序复杂学习者对话上下文建模，因此相较于传统的时序建模法，融合多模态大模型（Multi-modal Large Language Models， MMLLMs）及图表示学习来进行对话建模，有着天然的优势。具体来说，多模态大模型集成了各模态特征编码器、注意力特征融合机制、大语言模型以及外接子任务模型等关键组件，其在视觉-语言、语音-语言等跨模态语义对齐前提下，能够准确处理复杂的跨模态指令，具备高阶细粒度的多模态语义理解能力，该能力可服务于诸多跨模态下游任务，如视觉理解与问答、像素级图像或视频编辑、语音人机交互等。通过引入多模态大模型，可借助其对学习者多模态对话数据中潜在情感线索的细粒度理解，获取与情感状态判断直接相关的情感语义信息，实现模型推理过程中多模态细粒度的情感线索语义信息增益，进而有效提升复杂教学情境下对话数据的表征质量。图表示学习在处理复杂的非线性关系和结构化数据方面表现优越。许多实际问题可以通过基于图的建模来更好地表示，例如社交网络、生物信息学中的分子结构，以及知识图谱等。传统表示学习可能无法有效捕捉这些复杂的关系。同时，图表示学习能够考虑节点与其邻近节点之间的上下文信息。这使得学习到的表示更能反映实体或事件与其周围环境的关系，有助于更准确地表达语境；此外，图表示学习的方法通常更具通用性，能够适应多种不同的任务。这种灵活性使得图模型在处理各种领域的问题时更为适用。因此，图表示学习一直是流行的机器学习技术之一，有大量的研究者在这一方面进行研究工作。在一个对话图中，通常将一个对象视为一个节点，用节点之间的边来表示对象之间的关系。具体的，将对话中的单个语句的三种模态视为三种不同的节点，基于不同的语义背景，形成不同类型的边，对于多模态数据，图表示学习通过以上不同类型的边将每一种模态的特征都转化为边与节点之间的关系，从而将三种模态纳入考量。目前，多模态大语言模型及基于图表示学习的算法已经取得了长足的进步，但，常见的模态信息交互方法主要分为早期融合、晚期融合以及交叉学习融合等，其中早期融合的方法先从每种独立模态中提取特征表达，将每种特征通过对应位置元素相乘相加等方法混合起来，缓解了不同模态中原始数据表示不一致问题。晚期融合针对不同模态利用不同模型进行训练，再通过最大值结合、均值结合或者集成学习等方法将多个模型的学习结果输出，这种方式解决了模态数据处理的异步性，提升模态的可扩展性，但是忽略了各个模态之间的相互关联，缺少共享信息的表示。交叉学习融合通过将不同模态的特征表示映射到共同的语义表示空间，加强了模态之间共享信息的传递，但是无法区分共享信息中的冗余信息。多模态特征的深度融合是ERC技术的关键环节之一，该部分的设计直接关乎最终情感状态类别的推理准确率。为此，传统基于深度神经网络的多模态情感识别方法往往通过深层表征与跨模态共享语义空间学习来对齐多模态特征语义，以期在跨模态信息一致性学习与信息互补基础上，有效地融合跨模态特征并推理潜在的情感类别，然而此类方法一般采用损失函数的设计及特征单阶段简单融合（早期、晚期融合等）来实现跨模态特征语义对齐与互补利用，容易导致各模态中蕴含的情感语义信息（模态特定语义）损失与误解；此外，现有ERC方法仍然存在对各模态情感语义信息感知粒度不足的问题。以上两项局限致使现有ERC方法难以在复杂教学与认知交互情境中准确且稳健地识别学习者情感状态。尽管传统的图神经网络GCN已经很成功，基于GCN的变种卷积网络如GCN2，GraphSage等也在算法复杂度上有所提升，但总体而言，这些模型有所不足，例如GCN存在过平滑的问题，当网络层数堆叠之后，模型性能明显下降。这种现象限制了传统的图卷积网络的发展，无法获得对原始数据的最大利用，同时在许多大型的对话场景下，这些传统的网络模型无法区分出哪些信息是长久影响对话人的情绪，即对话中的长期话题因素，哪些信息是对话人情绪突变原因，即对话中的短期敏感信息。但从总体上看，利用现有技术中对学习者进行对话情感识别的任务的准确度与稳健性还有待提高。因此，基于上述问题，亟需提供一种新的对话情感识别方法，以能够提高对话情感识别的准确性与稳健性。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

李明周斯炜施建栋黄昌勤王士进

技术所属：浙江师范大学科大讯飞股份有限公司

相关技术

一种服务开发方法、装置、设备及存储介质  一种服务开发方法、装置、设备及存储介质 
 本发明公开了一种服务开发方法、装置、设备及存储介质，涉及人工智能技术领域。其中，服务开发方法包括:响应于用户通过调用服务开发接口而发起的服务注册请求，获取服务注册请求中所包含的服务数据；其中，AI服务开发框架中包含不同定制等级的服务开发接口；通过对服务数据进行注册，生成与所述服务数据对应的服务。本发明实施例的技术方案，可以解决使用第三方应用程序带来的安全问题。
一种高精度双层优化方法的神经网络搜索架构构建方法  一种高精度双层优化方法的神经网络搜索架构构建方法 
 本发明公开了一种高精度双层优化方法的神经网络搜索架构构建方法。在搜索空间中对操作感受野的倾向扩展操作空间只选择倾向的感受野；构建并堆叠普通搜索单元和下采样搜索单元，形成超网；通过高精度双层优化方法搜索得到超网的有向无环图中每个边和边中每个操作的架构权重；通过架构权重和对应操作架构权重乘积作为最终权重，获得每条边中最终权重最大的操作，将对应最终权重作为边的最终权重，以边和操作的结果堆叠更新搜索单元，得到最终的模型架构。在搜索空间中对操作感受野的倾向扩展操作空间并只选择倾向的感受野，减少了探索范围，提高了搜索效率。通过高精度双层优化方法结果高度近似最优架构权重，避免了优化结果出现富集大量池化操作。
跨总线域的设备对宿主机空间DMA访问方法及相关设备  跨总线域的设备对宿主机空间DMA访问方法及相关设备 
 本发明公开了跨总线域的设备对宿主机空间DMA访问方法及相关设备，涉及设备虚拟技术领域。本发明通过连接桥连接设备出借方和设备借用方二者的总线域，并由设备出借方中连接桥对应的端设备维护一个地址空间作为第一DMA窗口，以及由设备借用方的连接桥驱动维护一个地址空间作为第二DMA窗口，通过这两个DMA窗口转发被虚拟设备对设备借用方的DMA访问请求。并在设备借用方的IOMMU中设置地址映射，通过IOMMU对连接桥传送的DMA访问请求进行地址转换，使得地址转换后的DMA访问请求可以指向DMA缓存的物理内存地址，从而实现跨总线域的设备对宿主机空间的DMA访问。
一种客户信息定期维护方法及系统  一种客户信息定期维护方法及系统 
 本发明提供了一种客户信息定期维护方法及系统，方法包括以下步骤:集成多个渠道的客户数据并对其进行预处理；对预处理后的客户数据进行客户细分，并识别每个客户群体的行为特征和偏好；根据识别的结果，为每类客户群体打标签；根据客户标签，创建当前客户群体的用户画像；基于用户画像，绘制客户旅程地图，识别从意识到购买的关键接触点；根据客户旅程地图和用户画像，确定每个客户群体的消息推送方案。本发明用于为用户提供更好的体验和个性化服务。本发明用于提高客户关系管理和销售转化效率。
代码发布方法、装置、计算机设备和可读存储介质  代码发布方法、装置、计算机设备和可读存储介质 
 本申请涉及计算机和软件技术领域，特别是涉及一种代码发布方法、装置、计算机设备和可读存储介质。获取基于第一编程语言编写的业务源代码和业务源代码对应的运行关联代码，以及第一编程语言对应的代码运行环境；其中，运行关联代码包括目标入口代码和目标修复代码；基于代码运行环境，获取运行关联代码对应的执行文件；其中，执行文件包括用于驱动运行关联代码执行的指令；对业务源代码、运行关联代码、代码运行环境和执行文件进行发布处理。
一种基于统一管理平台的子应用数据获取方法及装置  一种基于统一管理平台的子应用数据获取方法及装置 
 本申请实施例公开了一种基于统一管理平台的子应用数据获取方法及装置，包括:接收客户端发送的访问请求信息，访问请求信息包括用户身份信息和访问地址；根据设置的统一权限验证规则和用户身份信息确定用户的访问权限等级，在访问权限等级为预设访问权限等级的情况下，在设置的路由表中查询与访问地址匹配的加载地址，并基于查询到的加载地址加载子应用的应用数据；基于预设通信机制调用应用数据，将应用数据发送至客户端，用于客户端基于应用数据进行子应用的管理操作，应用数据为基于各个子应用的公共组件开发得到的公共组件数据。能够提高子应用管理的效率，降低子应用的管理成本，也保障了子应用数据的安全性。
利用深度学习的BIM模型错误自动检测系统  利用深度学习的BIM模型错误自动检测系统 
 本发明涉及建筑信息模型领域，具体是利用深度学习的BIM模型错误自动检测系统，包括数据读取转化模块，用于读取第一BIM地理位置模型和第一BIM电气模型，通过模型映射和模型分割、模型分解，得到每个供电单元模型的用电负荷模型、第一电源模型、第二电源模型、连接设备模型；供电连续性检测模块，用于得到供电连续性错误识别标识；供电电量检测模块，用于得到供电电量错误识别标识；检测结果输出模块，用于根据供电连续性错误识别标识和供电电量错误识别标识，得到BIM模型错误检测结果。本发明通过对含屋顶光伏的智能楼宇BIM电气模型连接关系及设备容量的匹配关系进行智能分析，实现模型错误自动检测。
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法  一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 
 本发明公开了一种基于智能反射面的室内T型走廊场景路径损耗的分析方法，该方法通过仿真技术精确模拟信号在室内环境中的传播情况，并巧妙地利用智能反射面作为中继，以提供空间分集增益，有效解决信道中多径分量的稀疏性问题。包括如下步骤:首先通过专业软件，构建具有精确长宽高细节的室内新型T型走廊场景模型，确定天线发射端和用户信号接收端的具体位置和高度，设计所使用的智能反射面的位置部署、尺寸及数量；利用射线追踪技术对信道进行精确重构，准确评估信号传输特性和信道响应，为无线通信系统的设计和优化提供重要参考数据；通过调整智能反射面的位置部署、尺寸不同和使用数量，灵活调整室内太赫兹频段下信号的传播路径，实现信号强度的有效增强，优化无线通信性能。本发明为室内T型走廊场景的无线通信性能研究提供了准确的参考依据，不仅有助于深入理解该场景下太赫兹波段的信号传播特性，还为类似场景的性能分析和优化工作奠定了坚实基础。通过本发明的应用，可以进一步提升室内无线通信系统的性能，满足日益增长的无线通信需求。
模型评估任务处理方法及装置  模型评估任务处理方法及装置 
 本申请公开了一种模型评估任务处理方法及装置，涉及人工智能技术领域。本申请可以获取待评估模型对应的评估任务，基于每个子任务包含的多个子步骤，对子任务进行流式处理；在处理子任务的过程中，基于每个子步骤对应的执行数据，确定子任务的任务状态；基于任务状态为完成状态的子任务的数量，计算评估任务的执行进度；若执行进度达到预设进度，建立并执行与候选任务相同的备份任务；若评估任务中的所有子任务的任务状态均为完成状态，结束所述评估任务的相关任务。在评估任务执行到一定进度时，对未完成的子任务进行备份并执行，在候选任务出现问题执行缓慢时，备份任务也能正常执行，以加快子任务的效率，进而可缩短整个模型评估的耗时。
基于大数据的异常信号智能识别方法  基于大数据的异常信号智能识别方法 
 本发明公开了一种基于大数据的异常信号智能识别方法，通过构建网络行为识别模型，结合数据包缓存与重发机制，精准识别并快速恢复网络漏包情况。该方法利用时域状态空间融合深度学习算法，动态训练模型以适应网络环境变化，并具备强大的自适应能力和智能化水平。通过实时捕获传输信息，检测异常行为，隔离异常网络节点并重新规划传输路径，有效减少数据丢失和传输延迟。同时，通过迭代更新模型，持续提高检测准确性和效率，确保数据传输的完整性和实时性。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工