一种基于图文语义关系对齐的图文数据多模态训练方法
2025-02-24 14:13
No.1343586642212167680
技术概要
PDF全文
本技术公开了一种基于图文语义关系对齐的图文数据多模态训练方法。将不包括标签的训练集输入到预训练模型中进行特征抽取获得多模态特征,利用多模态特征作为输入进一步处理获得分类的预测值,并结合聚类算法获得聚类标签,利用分类的预测值和聚类标签处理并结合多模态特征获得图文语义关系对齐的损失,以图文语义关系对齐的损失最小化为目标针对分类器进行训练;重复上述步骤直到分类器收敛。本发明的创新在于是建立了深度聚类和对比学习的模型和分类器,并利用图文语义关系对齐处理训练,进而增强了图文关系分类和图文语义关系的理解能力,提升了处理速度和准确性。
背景技术
关于网络上图文关系的研究十分重要,是因为文本和图像是网站上最基础的两个元素,只有合理有效的结合,才能创造出精彩的内容。理解网络中图文关系,可以增强网站用户体验。另外,图文关系还可以辅助下游任务,如多模态命名实体识别,多模态情感分析,多模态灾害分类等任务。为了彻底理解文本和图像之间的关系,广告图文数据集提出了两种任务及四种类型的图文语义。第一种任务称为文本任务(text task),根据图文间是否存在语义重叠,分为 “文本被表示”(text is represented和“文本未被表示”(text is notrepresented)两种语义;第二中任务被称为图像任务(image task),根据图像是否为文本提供额外信息,分为 “图像提供额外信息”(image adds)和 “图像不提供额外信息”(image does not add)两种语义。由此,可以得到四种类型的图文关系任务(image-texttask)。然而,网络图文纷繁复杂,对图文关系进行人工标注是一项需要耗费大量人力的工作。 通用特征表示在机器视觉和自然语言处理两大领域取得了巨大的成功。通过视觉预训练模型和语言训练模型组合,或多模态训练模型,针对多模态领域一些图文任务进行微调,取得了不错的效果。然而,以上两种模式并不能实现完全意义上的语义对齐。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
夏瑞晨  罗尚虎  孙霖  方科彬  苏银都  陈浩男  罗大伟  赵瑶  祝栗
技术所属: 浙江大学计算机创新技术研究院
相关技术
一种服务开发方法、装置、设备及存储介质 一种服务开发方法、装置、设备及存储介质
一种高精度双层优化方法的神经网络搜索架构构建方法 一种高精度双层优化方法的神经网络搜索架构构建方法
跨总线域的设备对宿主机空间DMA访问方法及相关设备 跨总线域的设备对宿主机空间DMA访问方法及相关设备
一种客户信息定期维护方法及系统 一种客户信息定期维护方法及系统
代码发布方法、装置、计算机设备和可读存储介质 代码发布方法、装置、计算机设备和可读存储介质
一种基于统一管理平台的子应用数据获取方法及装置 一种基于统一管理平台的子应用数据获取方法及装置
利用深度学习的BIM模型错误自动检测系统 利用深度学习的BIM模型错误自动检测系统
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 一种基于智能反射面的室内T型走廊场景路径损耗的分析方法
模型评估任务处理方法及装置 模型评估任务处理方法及装置
基于大数据的异常信号智能识别方法 基于大数据的异常信号智能识别方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利