本技术属于医疗ICD自动编码领域,具体涉及一种基于图神经网络的医疗ICD编码分类方法,包括获取数据集并进行预处理得到文本向量矩阵;根据文本向量矩阵构建图结构,所述图结构包括节点特征矩阵和邻接矩阵;将图结构输入图神经网络模型输出预测ICD编码结果,采用基于交叉熵的多标签损失函数对模型进行训练;将待编码的病历数据输入训练好的图神经网络模型,得到预测ICD编码;本发明将医疗术语间的语义相似度、ICD编码间的层次距离和共现频率关系纳入图结构中,能够全面地捕捉词语及标签之间的复杂关系,更好地利用了ICD编码间的潜在关联性,增强了分类模型的上下文理解能力和准确性。
背景技术
ICD(International Classification of Diseases,国际疾病分类)是由世界卫生组织(WHO)制定的一套用于分类疾病及相关健康问题的标准诊断工具。ICD编码系统用于记录、分析、解释和比较死亡率和发病率数据,被广泛应用于全球医疗系统中。手动ICD编码过程繁琐且易出错,随着医疗数据量的增加,自动化ICD编码成为一种必要手段。自动化ICD编码通过自然语言处理(NLP)和机器学习技术,从临床文本中提取相关信息并自动生成ICD编码,具有减少手动操作时间,加快编码过程,减少人为错误,提高编码准确性,降低编码工作成本,优化资源分配等优点。
早期的自动化ICD编码主要依赖于规则系统、关键词匹配和统计模型。例如,基于规则的系统会根据预定义的规则库或ICD编码手册来匹配文本中的特定词汇与ICD编码。这些系统的优势在于实现简单,能够处理一些常见的医疗术语。然而,这类方法需要人工编写和维护大量的规则,无法应对复杂的医疗语境,特别是在出现新术语时,规则需要不断更新;此外这类方法在应对多样化的医疗文本时,表现出较差的泛化能力,难以捕捉词语的多义性和上下文依赖。
近年来,基于神经网络的深度学习模型(如卷积神经网络CNN、长短期记忆网络LSTM等)逐渐成为ICD编码任务的主流方法。例如:卷积神经网络通过捕捉文本中的局部模式(如词汇片段、n-grams)来生成文本表示;递归神经网络及其变体LSTM擅长处理序列数据,能够捕捉文本中的长依赖关系;这些模型能够自动学习文本的特征,并显著提高了分类的准确性。虽然这些基于深度学习的方法在自动化ICD编码中取得了显著的进展,但它们仍然存在一些局限性:
1)无法有效捕捉标签之间的关系:ICD编码任务是一个多标签分类问题,现有大多数模型仅将其视为独立的分类任务,忽略了不同ICD编码之间的共现关系、语义相似性和层次结构。由于ICD编码通常具有一定的关联性,现有方法未能充分利用这些关系,导致分类准确度有所局限。
2)缺乏对文本结构的全面表示:现有方法通常将医疗文本视为一个线性序列,忽略了词语之间的复杂关系,如语义相似性、上下文依赖等。例如,CNN只能捕捉局部模式,而LSTM则无法充分利用多标签之间的相互关联性。
3)标签稀疏性问题:在实际应用中,ICD编码非常多,但大多数文本只涉及少数ICD编码,这种稀疏性导致模型难以对少见的ICD编码进行有效的学习和预测。
实现思路