本技术公开了一种端到端的宫颈细胞分类集成框架。主要包含四个模块:增强模块,对原始数据集进行扩充和预处理;融合模块,在数据集上训练改进的初级学习器并融合输出生成新数据集;提纯模块,提纯新数据集得到初级学习器的集成结果并保留误分类的样本;复学模块,使用次级学习器再学习并用于最终的分类。此外,在初级学习器和次级学习器的训练阶段提出了一种自适应的数据增强方法。本发明通过逐阶段的细粒度优化,解决了现有宫颈细胞数据集类别分布不均衡和数量稀少的问题,同时通过集成框架重点学习易混淆的图像特征显著提升分类精度。实验表明,本方法能够有效地辅助宫颈癌筛查,大大降低病理学医生的工作负担,有很好的应用价值,社会效益巨大。
背景技术
宫颈癌作为常见的恶性肿瘤,对女性健康构成严重威胁。传统宫颈癌筛查主要依赖细胞学检查(如巴氏涂片检查和液基薄层细胞检测等),然而,这些方法需要经验丰富的病理学专家在显微镜下人工筛查,存在耗时耗力、人工判读主观性高、准确性有限等问题。近年来,计算机辅助筛查技术逐渐兴起,可以提供更精准的宫颈癌检测手段。
深度学习技术在医学图像分析领域表现出色,为宫颈癌筛查提供了新的可能性。通过深度卷积神经网络(CNN)可以对病人的宫颈细胞图像进行高效的特征提取和分类。这些深度学习模型能够自动学习并识别细胞形态学特征,提高宫颈癌的诊断准确性。
尽管深度学习模型在图像分类任务中表现卓越,但目前宫颈细胞识别还存在很多问题。一是数据集的复杂性和多样性,存在数据集数量稀少且类别分布不均衡,某些类别之间的病理学特征非常相似等问题。二是单网络受限于架构,存在识别精度有限,在低质量数据集上训练容易过拟合,鲁棒性和泛化能力较差等问题。如何应对上述挑战以实现宫颈细胞的精确识别,是目前研究的热门话题。
实现思路