本技术公开一种多模态特征融合Mamba用于医学报告自动生成方法,将原始医学图像输入视觉特征提取模块输出视觉特征;将原始医学报告输入文本特征提取模块,输出文本特征;将视觉特征和文本特征分别输入SSM‑Attention视觉文本特征整合模块,输出新的视觉特征和文本特征;新视觉特征输入Transformer编码器,增强视觉特征提取高级视觉特征;将文本特征和增强后的高级视觉特征输入多模态融合Mamba模块输出融合特征,将融合特征输入Transformer解码器自动生成医学报告。本发明的SSM‑Attention、Multi modal Mamba可独立发展和改进,同时也方便将新开发的技术模块集成进来,并不仅限与医学影像与文本特征的融合,他适用于任何的多模态的特征进行融合。
背景技术
医学影像报告自动生成是一个充满挑战与机遇的研究方向,其核心在于利用先进的计算机技术,特别是深度学习技术,自动分析医学影像(如X射线、CT、MRI等)并从中提取关键信息,以生成全面、准确且临床相关的医学报告。这一研究方向旨在解决医生在撰写报告时面临的耗时与精力负担,同时提升报告的准确性和一致性。
当前,研究者们正探索利用卷积神经网络(CNN)捕捉影像的空间特征,递归神经网络(RNN,如LSTM)及Transformer架构提取医学影像的视觉特征,从而更深入地理解医学影像内容,并模仿医生的诊断逻辑和报告撰写风格,以实现医学影像报告的智能化自动生成。当今大多数技术主要致力于从医学影像中提取并整合视觉特征,并将这些特征进行编码,然后进行序列解码,在整个过程中使用注意力机制关注图像信息,再而自动生成医学报告。
但现有同类技术存在多个关键缺陷:
1、Transformer整合视觉信息的复杂度较高:
传统的Transformer架构其自注意力计算的复杂度为二次方(与序列长度相关),这使得其在处理长序列数据(医学影像的视觉特征)时面临严重的计算瓶颈。因此,在整合医学影像的视觉信息时使用Transformer模型通常需要大规模计算资源,不适合在处理高分辨率的医学图像时的场景中使用。
2、视觉和语义信息结合不足:
大多数现有的MRG(Medical Report Generation)方法在生成文本时,通常只关注图像的整体特征或文本的上下文信息,而忽略了图像局部区域和文本语义之间的协同作用。这种单一注意机制限制了模型的表达能力和生成效果。
3、数据标注增加复杂度
现有方法通常需要基于大量的区域级标注数据和任务特定知识进行训练,这不仅增加了数据准备的成本,也限制了模型的泛化能力。
实现思路