本技术公开了一种基于图文语义关系对齐的图文数据多模态训练方法。将不包括标签的训练集输入到预训练模型中进行特征抽取获得多模态特征,利用多模态特征作为输入进一步处理获得分类的预测值,并结合聚类算法获得聚类标签,利用分类的预测值和聚类标签处理并结合多模态特征获得图文语义关系对齐的损失,以图文语义关系对齐的损失最小化为目标针对分类器进行训练;重复上述步骤直到分类器收敛。本发明的创新在于是建立了深度聚类和对比学习的模型和分类器,并利用图文语义关系对齐处理训练,进而增强了图文关系分类和图文语义关系的理解能力,提升了处理速度和准确性。
背景技术
关于网络上图文关系的研究十分重要,是因为文本和图像是网站上最基础的两个元素,只有合理有效的结合,才能创造出精彩的内容。理解网络中图文关系,可以增强网站用户体验。另外,图文关系还可以辅助下游任务,如多模态命名实体识别,多模态情感分析,多模态灾害分类等任务。为了彻底理解文本和图像之间的关系,广告图文数据集提出了两种任务及四种类型的图文语义。第一种任务称为文本任务(text task),根据图文间是否存在语义重叠,分为 “文本被表示”(text is represented和“文本未被表示”(text is notrepresented)两种语义;第二中任务被称为图像任务(image task),根据图像是否为文本提供额外信息,分为 “图像提供额外信息”(image adds)和 “图像不提供额外信息”(image does not add)两种语义。由此,可以得到四种类型的图文关系任务(image-texttask)。然而,网络图文纷繁复杂,对图文关系进行人工标注是一项需要耗费大量人力的工作。
通用特征表示在机器视觉和自然语言处理两大领域取得了巨大的成功。通过视觉预训练模型和语言训练模型组合,或多模态训练模型,针对多模态领域一些图文任务进行微调,取得了不错的效果。然而,以上两种模式并不能实现完全意义上的语义对齐。
实现思路