当前位置: 首页 > 专利查询>南通大学专利>正文

基于生成对抗网络的宫颈细胞图像半监督学习方法技术

技术编号:31758102 阅读:78 留言:0更新日期:2022-01-05 16:41
本发明专利技术提供一种基于生成对抗网络的宫颈细胞图像半监督学习方法,包括如下步骤:(1)训练生成对抗网络,生成负样本分布;(2)训练分类器,学习正样本和负样本的判别边界;(3)基于已训练的分类器模型,对检测到的未知单细胞图像进行分类。本发明专利技术的模型学习过程不需要任何负样本先验知识,能够联合优化生成式和判别式模型,同时利用少量有标记数据和大量未标记数据进行宫颈细胞图像半监督学习,能有效提升未标记数据利用率,进而提升宫颈细胞图像分类准确率和效率。率和效率。率和效率。

【技术实现步骤摘要】
基于生成对抗网络的宫颈细胞图像半监督学习方法


[0001]本专利技术属于计算机视觉领域,具体涉及一种基于生成对抗网络的宫颈细胞图像半监督学习方法。

技术介绍

[0002]目前,图像分类标记数据可大量获取,但是进行妇科宫颈癌筛查病理切片标记图像却难以大量获取。当利用少量标记的宫颈细胞图像数据集训练分类模型,模型方法在真实数据上使用时,模型性能往往变得很糟糕。由于在医院病理科日常阅片筛查工作中,病理医师会人工读图,从宫颈细胞图像中辨认出异常细胞和正常细胞,根据异常细胞的数目和病变情况来判断检查者患癌症的可能性。医院信息系统积累了一些有标记的正常宫颈细胞图像数据集,也就是正样本数据集。而在病理科日常工作中,工作人员更加容易获取的是大量的未标记宫颈细胞图像数据。将未标记数据与感兴趣的正样本标记数据一起使用,训练分类模型是部分监督学习方法(即半监督学习)的研究内容。
[0003]存在几种半监督学习方法,其中一种两阶段的正样本和未标记样本学习方法具有更好的研究前景,其优点是不需要预先要求数据集的先验知识,能够自动检测最可能误分样本的噪声,通过迭代算法加速数据集标记。先前在正样本和未标记样本学习方法的研究工作中常常把未标记样本的整个分布作为负的,这样不符合数据真实标签的假设,往往导致最终得到的半监督学习分类模型性能下降。分类模型性能下降的最根本原因是模型学习到的正样本和负样本的分类决策边界偏离真实分割边界,存在模型训练估计偏差。为了减轻训练偏差,可以在训练损失函数中加入二值条件以避免估计偏差。另外,如果增加正负标记样本数量,进行合理的数据增广,也可以减小训练偏差。因此本专利技术提出一种在损失函数加入二值条件,同时借助生成对抗网络增加标记负样本的宫颈细胞图像半监督学习方法,以克服分类器训练过拟合的问题。

技术实现思路

[0004]本专利技术要解决的技术问题是提供一种基于生成对抗网络的宫颈细胞图像半监督学习方法,不需要宫颈细胞图像的先验知识信息,自动学习到宫颈细胞图像负样本数据分布,能对标记样本数据集进行增广,同时使用更高层次的特征来评价增广样本数据的质量,可以同时提高简单和复杂、标记和未标记宫颈细胞图像数据集的利用率,进而提升宫颈细胞分类准确率和效率,高效地进行细胞二分类。
[0005]为解决上述技术问题,本专利技术的实施例提供一种基于生成对抗网络的宫颈细胞图像半监督学习方法,包括如下步骤:
[0006](1)训练生成对抗网络,生成负样本分布;
[0007](2)训练分类器,学习正样本和负样本的判别边界;
[0008](3)基于已训练的分类器模型,对检测到的未知单细胞图像进行分类。
[0009]其中,步骤(1)的具体步骤为:
[0010](1

1)设置训练迭代数目T1;
[0011](1

2)从噪声先验分布p
z
中抽取{Z
(1)
,z
(2)
,...,z
(m)
},共m个噪声样本作为最小批次的样本数据;
[0012](1

3)从未标记数据分布p
U
中抽取共m个噪声样本作为最小批次的样本数据;
[0013](1

4)使用随机概率梯度下降SGD算法,更新判别器D:
[0014][0015](1

5)从噪声先验分布p
z
中抽取{z
(1)
,z
(2)
,...,z
(m)
},共m个噪声样本作为最小批次的样本数据;
[0016](1

6)使用Adam算法,更新生成器G:
[0017][0018](1

7)如果达到迭代数目T1,终止训练迭代。
[0019]其中,步骤(2)的具体步骤为:
[0020](2

1)设置训练迭代数目T2;
[0021](2

2)从正样本分布p
p
中抽取{x
p(1)
,x
p(2)
,...,x
p(m)
},共m个正样本作为最小批次的样本数据;
[0022](2

3)从噪声先验分布p
z
中抽取{z
(1)
,z
(2)
,...,z
(m)
},共m个噪声样本作为最小批次的样本数据;
[0023](2

4)使用Adam算法,更新生成器C:
[0024][0025]其中,C(x)为分类决策函数,为正样本数据,z
(i)
为随机噪声数据;
[0026](2

5)如果达到迭代数目T2,终止训练迭代。
[0027]本专利技术的上述技术方案的有益效果如下:
[0028]本专利技术的上述技术方案的有益于宫颈细胞图像智能分析,采用生成对抗网络的进行半监督学习,本专利技术把生成对抗网络的代价函数与未标记数据集的偏置风险相结合,强迫生成对抗网络的判别器D将负样本从正样本的分布区分出来,同时反过来指导生成对抗网络的生成器G,从而让G能够从未标记数据集中学习到未标记负样本的分布,最后利用学到的负样本分布和标记的正样本数据训练分类器对宫颈细胞图像分类。本专利技术设计不需要宫颈细胞图像的先验知识信息,自动学习到宫颈细胞图像负样本数据分布,能对标记样本数据集进行增广,同时使用更高层次的特征来评价增广样本数据的质量,可以同时提高简单和复杂、标记和未标记宫颈细胞图像数据集的利用率,进而提升宫颈细胞分类准确率和效率,高效地进行细胞二分类。
附图说明
[0029]图1为本专利技术中提出的半监督学习方法示意图;
[0030]图2为本专利技术中的生成对抗网络的生成器结构示意图。
具体实施方式
[0031]为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0032]本专利技术提供了一种基于生成对抗网络的宫颈细胞图像半监督学习方法,采用生成对抗网络的进行半监督学习,把生成对抗网络的代价函数与未标记数据集的偏置风险相结合,强迫生成对抗网络的判别器D将负样本从正样本的分布区分出来,同时反过来指导生成对抗网络的生成器G,从而让G能够从未标记数据集中学习到未标记负样本的分布,最后利用学到的负样本分布和标记的正样本数据训练分类器对宫颈细胞图像分类。本专利技术设计不需要借助任何先验知识信息自动学习未标记负样本分布,同时实现宫颈细胞图像本质特征的抽取和优化。
[0033]基于上述理论,本专利技术提供一种基于生成对抗网络的宫颈细胞图像半监督学习方法,包括如下步骤:
[0034](1)训练生成对抗网络,生成负样本分布;具体步骤为:
[0035](1

1)设置训练迭代数目T1;
[0036]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的宫颈细胞图像半监督学习方法,其特征在于,包括如下步骤:(1)训练生成对抗网络,生成负样本分布;(2)训练分类器,学习正样本和负样本的判别边界;(3)基于已训练的分类器模型,对已检测到的未知单细胞图像进行分类。2.根据权利要求1所述的基于生成对抗网络的宫颈细胞图像半监督学习方法,其特征在于,步骤(1)的具体步骤为:(1

1)设置训练迭代数目T1;(1

2)从噪声先验分布p
z
中抽取{z
(1)
,z
(2)
,...,z
(m)
},共m个噪声样本作为最小批次的样本数据,其中z
(i)
为随机噪声样本;(1

3)从未标记数据分布p
U
中抽取共m个噪声样本作为最小批次的样本数据,其中为未标记的样本数据;(1

4)使用概率随机梯度下降算法,更新判别器D:其中,D(x)为决策函数,G(z)是生成样本数据,为未标记的样本数据,z
(i)
为随机噪声数据,为正样本数据;(1

5)从噪声先验分布p
z
中抽取{Z
(1)
,z
(2)
,...,z
...

【专利技术属性】
技术研发人员:赵理莉杭月琴
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1