本技术是关于一种医学数据关系挖掘方法及装置、电子设备和计算机可读介质。该方法包括:获取目标文本中的第一医学数据和第二医学数据,第一医学数据和第二医学数据通过实体识别算法从目标文本中抽取出来;获取第一医学数据的本身特征、第二医学数据的本身特征、第一医学数据和第二医学数据的周边文本特征、句法依存分析特征和句子形态特征中的至少一种,以获得第一医学数据和第二医学数据的特征向量;将特征向量输入至训练好的分类模型,判定第一医学数据和第二医学数据之间的目标关系。本发明能够高效地识别出临床病例文本中的医学数据之间的关系,提升了医学数据关系挖掘的效率,以利于进一步的数据统计分析。
背景技术
临床病例文本中,许多信息是以长文本的形式记录,不便于后续的统计分析任务。临床病例结构化可以解决这类技术问题。其中,医学术语在长文本中的关系挖掘是临床数据结构化非常重要的一个步骤。
现有技术中,存在人工抽象规则的方法和基于自然语言处理中文本句法依存分析的方法进行医学数据关系挖掘。
但上述人工抽象规则的方法中人工规则是一种一刀切的方法,效果依赖于规则的细致程度。上述基于自然语言处理中文本句法依存分析的方法,针对特定领域训练的话,标注成本非常高,所以在临床病例中很少有直接的应用。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
实现思路