本技术实施例提供了一种长文本的处理方法、装置、设备及存储介质,所述方法包括:获取待处理的长文本,并将长文本分割成多个文本块,每个文本块的长度根据预设的文本处理模型确定;针对每一文本块,对该文本块进行编码,得到该文本块对应的特征向量;获取候选特征向量,候选特征向量是对目标文本进行编码得到的;基于每一文本块对应的特征向量,以及候选特征向量,计算每一文本块对应的权重值;基于各文本块对应的特征向量,以及各文本块对应的权重值,得到长文本的特征向量,并将长文本的特征向量作为长文本的处理结果。本发明实施例,能够实现对长文本的处理。
背景技术
随着人工智能领域的发展,自然语言处理技术(Natural Language Processing,NLP)在众多场景中得到了广泛运用,比如情感分析、文本相似度计算、评论观点抽取、文本分类、词法分析等场景。在这些自然语言处理场景中,均需要对文本进行处理。目前,大多文本处理模型都是基于训练好的预训练模型进行训练或调整得到的,具体的,以预训练模型为基础,微调预训练模型的参数对下游任务进行训练,实现不同场景下的文本处理模型,以对文本进行处理,该下游任务例如可以是文本分类、关键信息抽取、序列标注等等。
基于Transformer的双向编码器表示(Bidirectional Encoder Representationsfrom Transformers,BERT)是一种语言表示模型,其中,Transformer是一种基于自注意力(self-attention)的特征抽取器。然而,目前基于Transformer的预训练模型,对单次输入模型的文本长度有限制,例如,12层或24层的Transformer结构,其单次处理的文本长度不超过512个字,因此,对于一些需要处理长文本的NLP任务,512这个长度是无法满足需求的。
因此,如何基于目前的预训练模型实现对长文本的处理,成为本领域技术人员亟待解决的技术问题。
实现思路