本申请公开了一种基于多模态深度学习的智能辅助方法及系统,涉及医学影像处理、数据处理技术,包括:基于病情描述文本数据提取文本特征,以及提取医学影像数据的影像特征;根据提取的文本特征和影像特征分别输入预先训练的LSTM,以利用LSTM输出上下文的病情文本特征和局部的病灶特征;对所输出的上下文的病情文本特征和局部的病灶特征,利用注意力融合机制进行加权融合;将加权融合的特征利用编码器进行编码,以通过编码器输出文本关联的病灶特征;将文本关联的病灶特征与局部的病灶特征利用解码器进行解码,以基于所述解码器输出预测的病灶情况。本申请通过跨模态的文本与图像特征的融合,提高了模型的预测精度。
背景技术
随着人工智能的发展,人工智能在医疗上的应用越来越普遍,例如利用神经网络对大量医疗诊断图像的学习实现疾病分类的目的。为了提升疾病分类的准确性,进一步提出了多模态融合技术,例如图像模态与文本模态的融合。图像与文本融合可以补充单一图像或文本缺失的信息,使得神经网络模型的分类能力更强,分类结果更准确。
现有技术包含通过对图像模态和文本模态进行特征抽取,然后分别对这些特征进行训练,并最终通过决策级融合进行分类。例如专利号为2023116944924的中国专利,公开了“一种基于对比学习的电子病历多模态医疗语义对齐方法”,即是对图像、文本模态分别进行特征提取与训练,最后进行决策融合。然而,这种方法忽略了图像和文本之间的关联性,仅是将图像和文本特征的分别处理,降低了神经网络模型的预测准确性。
实现思路