本技术涉及计算机视觉领域,提出了一种结合先验知识增强掩码与对齐建模的医学图像分类技术。该方法首先获取并预处理图像文本对数据集,进而实现图像文的高效分类。
背景技术
在大规模标注的自然图像数据集的支持下,深度学习在计算机视觉领域取得了巨大的成功。然而,在医学成像中,深度学习模型需要大量的标注数据,且通常表现出较差的泛化能力。获取大规模、高质量的标注数据在医学领域是一个重大的挑战,因为这既耗时又昂贵。医学视觉-语言预训练(Med-VLP)作为一种有前景的替代方法出现,它利用相对容易获得的医学报告作为监督信号来学习通用表示。这种方法有效地缓解了下游任务中标注数据不足的问题,并取得了令人印象深刻的泛化性能。
当前的Med-VLP方法主要分为两类:报告监督的跨模态对齐预训练和基于重建的自监督预训练。前者通过使用信息丰富的医学报告-图像对,在全局和局部层面对齐文本和图像特征。后者则采用联合图像-文本重建进行自监督预训练,通常应用MAE等方法。每种方法都有其优点:对齐预训练捕捉到图像和配对报告之间的内在联系,增强了表示的判别能力;而重建预训练则关注局部细节,促进细粒度表示学习和捕捉低级模态信息。
然而,结合这两种范式的优势也带来了挑战,因为每种方法都有其局限性。对齐预训练由于传统的对比学习会引入假阴性问题,其中每张X光图像被强制与一个特定的报告对应,同一批次中的其他对则被视为负样本。这导致一些语义上相似的图像-报告对被视为负样本,从而产生次优的图像-文本表示。另一方面,重建预训练则平等地处理所有图像块,但每个图像块的重要性是不同的,特别是包含关键病理的图像块,它们具有更丰富的视觉特征。这导致了对医学图像中关键病理区域的细节捕捉不足。
因此,设计一个既能有效利用重建预训练范式优势又能兼顾对齐预训练范式优势的医学视觉-语言预训练框架是一个亟待解决的重要问题。同时,这个框架还需要缓解这两种预训练范式的不足之处,从而学习到更好的医学图像信息,提高下游任务的准确性。
实现思路