本技术提供了一种基于实体导向的多文档摘要生成系统及方法,涉及自然语言处理领域。第一编码器来有效分析模型跨文档实体信息、分析实体的显著性,结合层次自注意力机制构建第二编码器来分析跨文档关系,采用层次交叉注意力机制将实体、文段、文档以及Token层次的信息融入摘要生成中,实现能够分析出多文档构成的长文本中的显著实体,并改善摘要的事实忠实度和减少幻觉问题的技术效果。
背景技术
文本摘要生成技术指的是在读取源文本之后生成较为简短的能够概括源文本主要内容的自然语言理解和生成技术,生成的摘要可以压缩文本内容但保留源文本中的核心信息。文本摘要生成技术主要包括抽取式摘要生成和生成式摘要生成两种,抽取式技术主要基于统计的思想,从现有的新闻文本中抽取统计模型识别的关键词,句来构成较为简短的摘要,而生成式技术基于模型对于源文本的学习和理解来实现摘要的生成。多文档摘要(MDS)是一种有效的信息聚合工具,它可以从一组与主题相关的文档中生成信息丰富、简洁的摘要。它具有广泛的应用,例如创建新闻摘要,产品评论摘要和科学文献摘要等,相较于单文档摘要具有更高的技术难度,但也具有更高的应用价值。
实体导向的摘要指的是在给定文档的情况下,结合文档中的实体信息,来生成符合原文档中实体关系的上下文化的摘要,这是一种结合了传统的摘要生成和文档中实体分析的技术,其目标在于提升生成摘要的质量,特别是对于原文本的事实忠实度。
在现有技术中,多文档的长文本本身就是一个挑战,加之实体信息的稀疏性,这不仅增加了实体分析的难度,也可能导致生成摘要中的实体信息混淆。
因此,如何有效整合显著实体信息,生成更为精确、清晰且包含丰富实体关系的摘要成为了亟待解决的技术问题。
实现思路