本技术提供了一种基于方面导向的多文档摘要生成系统及方法,涉及自然语言处理领域。通过图编码器获取多文档信息并构建异构图以生成中心实体信息;第一编码器采用实体-句子层面多头交叉注意力机制根据中心实体信息进行筛选以生成中心实体相关信息;第二编码器基于方面-句子交叉注意力机制结合中心实体相关信息以确定目标文本上下文向量;解码器通过方面检测的方式结合目标文本上下文向量以生成方面分布分析结果,并根据方面分布分析结果生成目标摘要信息。通过方面检测和摘要生成模型确保摘要的方面导向性,生成更全面、精确的摘要,从而提升摘要的实用性,保证信息的忠实度、全面性和逻辑性,满足用户对不同方面信息的需求。
背景技术
文本摘要生成技术指的是在读取源文本之后生成较为简短的能够概括源文本主要内容的自然语言理解和生成技术,生成的摘要可以压缩文本内容但保留源文本中的核心信息。
基于方面的摘要旨在从源文档生成仅包含与特定方面相关的内容的摘要,是一种在给定文档的情况下,重点分析文档中的特定方面(aspects),并生成突出这些方面的摘要的技术。这种方法不仅仅聚焦于文档中的实体和其关系,而是更深入地探讨文档中的关键方面或主题,如产品的特性、事件的影响或政策的结果等。
尽管依赖于预训练语言模型的多文档摘要生成技术已取得显著进展并展现出强大的摘要生成能力,但该技术在实际应用中仍存在明显的局限性。现有技术主要采用两阶段方法来生成方面导向的多文档摘要,通过提升方面识别的效果并融合方面信息来筛选源文本中最相关的内容,旨在提高摘要的整体质量。然而,这种方法往往忽略了中心实体的系统分析,并未充分利用多维度分析的潜力,导致内容分散和信息冗余。
因此,如何有效地开展多维度分析,实现多文档中的中心实体识别、领域适应和方面分类成为了亟待解决的技术问题。
实现思路