本技术公开了一种调控伪标签的结直肠癌病理图像半监督语义分割方法,涉及医学图像视觉分割领域。首先对目标病理区域进行图像采集并标注,并将其按比例划分为训练集、验证集和测试集;在训练教师模型的一致性正则化过程中,根据置信度得分对低置信度伪标签的类别进行排序和缩减;利用训练后教师网络的最终模型和最优模型之间的预测分数差异来评估伪标签的置信度,并对置信度高的伪标签进行细化;根据伪标签中类别的数量,设定各个子数据增强方法触发的概率,生成级联式像素随机变化;最后构建针对结直肠癌病理图像伪标签的半监督语义分割模型。本发明解决了结直肠癌病理图像半监督语义分割任务精度低的问题。
背景技术
组织病理学图像是诊断恶性肿瘤和选择治疗方案的重要诊断依据。常规的诊断方法通过病理科医生目视显微镜进行诊断,整个过程非常耗时、耗力,且主观性强,诊断结果因人而异。快速兴起的计算病理学研究有望实现客观诊断、治疗反应预测和识别与临床相关的新形态学特征。然而,使用大量的有标签的数据集训练神经网络是计算病理学的主要方式,而详尽的标记数据的获取通常是费时、费力且昂贵的。半监督学习的主要任务是在有限的监督数据下充分利用未标记数据来训练模型,以此减轻数据标注的成本负担。
基于伪标签的半监督语义分割方法近年来在组织病理学图像分析中取得了一定的进展,主要包括以下几种典型方法:
固定伪标签生成方法:一些早期的方法直接将模型在无标签数据上的预测结果作为伪标签,并在后续训练过程中保持这些伪标签不变。例如PseudoSeg和Pseudo-Labeling。这类方法简单易行,能够有效地利用未标记数据的预测结果来提升模型性能,但也存在一些局限性。因为伪标签是静态的,不能动态适应模型的变化,导致模型容易被早期预测中的错误标签误导,累积误差,影响最终的分割效果。
自适应伪标签更新方法:为了克服静态伪标签的缺点,一些方法引入自适应的伪标签更新策略,使伪标签能够随着模型的更新而不断调整,例如Mean Teacher和TemporalEnsembling。这些方法通常通过设置一个教师模型来指导学生模型的学习,教师模型是学生模型的时间平均结果。尽管此类方法在一定程度上提升了伪标签的质量,但它们依赖于大量训练迭代且计算资源消耗较大,此外教师模型更新的滞后性可能导致模型性能的波动。
基于不确定性的伪标签过滤方法:一些方法通过不确定性估计来筛选伪标签,从而去除低置信度的伪标签,以减少错误的累积。例如Entropy Minimization和Class-Balanced Self-Training(CBST)等方法通过设定置信度阈值,过滤掉不可靠的伪标签。这些方法在一定程度上减少了伪标签错误的干扰,但对于高不确定性的复杂样本,可能会丢失有用的信息,导致模型在难分样本上的表现不佳。
基于一致性正则化的伪标签方法:这种方法强调模型对输入扰动的不变性,通过对同一输入的不同版本(如数据增强或不同网络分支)生成一致的伪标签,提升伪标签的稳定性和准确性。例如U2PL和CPS(Cross Pseudo Supervision)。一致性正则化方法在半监督分割中表现出色,但其分支网络的多样性和伪标签的一致性之间可能存在矛盾,此外在处理病理图像这类存在高噪声的场景时一致性难以保证。
总体而言,这些基于伪标签的半监督分割方法各有优缺点。静态伪标签方法简单但容易累积误差,自适应更新方法可以减少静态误差积累但计算开销较大;不确定性筛选方法能降低错误伪标签干扰但可能忽略复杂样本;一致性正则化方法提升伪标签质量,但需要解决一致性与多样性的权衡。这些方法的局限性在实际应用中依旧存在改进空间,尤其是在组织病理学图像中,病理图像的高复杂性和高噪声性对伪标签的质量提出了更高的要求。
实现思路