本技术提出一种自然语言处理模型构建方法、系统、电子设备及存储介质,其方法技术方案包括采用联合抽取的方法来进行信息抽取,同时挖掘不同颗粒度的信息,包括词性信息对应的词向量、字向量等;此外,本发明对原始训练数据进行负采样,得到一批负样本,来解决模型的低资源问题以及增加模型的识别难度。本发明提高了非结构化文本信息抽取的实施效果,提高了模型的鲁棒性。
背景技术
在语言处理领域存在大量非结构化的文本,尤其是新闻文本,在这些文本中存在着很多的实体,不同的实体之间存在着不同的关系,有效的对非结构化文本进行抽取,可以辅助我们对文本的自动化理解,以及知识图谱的构建。
现有技术主要包括基于模版的方法、基于pipeline的信息抽取方法以及基于半监督的信息抽取方法,而上述方法编码器不够强大,编码的特征维度不够丰富,无法同时训练实体识别与关系分类,不能利用原始数据进行联合训练,无法解决模型之间误差累计问题,而且无法对数据进行有效增强,在数据比较少的情况下,对模型的效果有比较大的影响。
实现思路