一种低成本高效的细胞核图像分割方法技术

技术编号:35761577 阅读:24 留言:0更新日期:2022-11-26 19:12
本发明专利技术属于公开了一种低成本高效的细胞核图像分割方法,采集无标签病理图像数据,通过基于一致性的图像样本块选择算法,筛选出少量的小尺寸的病理图像样本块由病理医生进行标注,标注之后的掩膜和选择的样本块组成样本对,作为有条件输入的基于单对训练图片的对抗生成模型的训练样本,经过模型训练,生成大量的伪样本对并加入分割训练集,所有的标注的真实样本对加上模型生成的伪样本对输入基于伪标签的半监督细胞核分割模型进行训练,得到能够精准分割病理图像细胞核的模型;在尽可能减少标注成本的前提下,通过基于一致性的图像样本块选择算法达到和大量标注相当的分割性能。本块选择算法达到和大量标注相当的分割性能。本块选择算法达到和大量标注相当的分割性能。

【技术实现步骤摘要】
一种低成本高效的细胞核图像分割方法


[0001]本专利技术属于医学病理学行业中的医学图像处理
,具体涉及一种低成本高效的细胞核图像分割方法。

技术介绍

[0002]细胞核分割任务,是指标记出病理图像中每一个属于细胞核的像素,细胞核分割是计算机辅助诊疗系统中关键的一个环节分割出来的细胞核不仅有助于病理图像的进一步处理,也有助于病理医生诊断分析病情的发展。
[0003]细胞核分割的结果可以提供基本的细胞核视觉信息和形态学特征例如尺寸,形状或者颜色[1][2]。这些信息和特征不仅有助于病理图像的进一步处理(例如分类或者组织分割),也有助于病理医生诊断分析病情的发展(例如癌症的诊断评估和预后)。因此,细胞核分割在计算机辅助诊疗系统中是至关重要的一环。然而,病理图像复杂的背景,细胞核杂乱的分布都极大地增加了精确分割细胞核的难度。同时,训练一个精确分割细胞核的模型通常需要大量的有标注数据(细胞核的数量达到数万级别),这也显著地增加了病理医生标注的负担和时间经济成本。
[0004]目前,主流的方法[3][4]大多为全监督方法,它们能够达到较高的分割精度但是却需要大量的细胞核像素级别的标注,这既耗时又昂贵,限制了这类方法的应用范围。一些基于域适应的无监督方法[5][6]使用无标签数据利用生成模型去构建一个有标签数据集,这种方法对无标签数据的种类和形态都有一定的限制,还存在精度不高的问题。半监督方法们[7][8]利用部分有标注的图片加上大量的无标注图片参与训练能够提升模型的性能,但他们很少考虑如何高效选择样本来进行标注的问题。主动学习方法[9][10]迭代地选择一些高价值的样本进行标注。在主动学习方法中,无标签图片会被随机初始化或者预训练的模型进行不确定性的预测,随后病理学家会针对不确定性高的图片进行有针对性的标注,标注后的图片又可以参与模型的训练来预测需要标注的无标签图片,整个过程反复迭代循环。它们的效果依赖于迭代训练的模型,由于需要配合多轮模型的训练加上人工标注,时间成本也较高。
[0005]因此在模型训练之前,通过挑选有价值的样本能够最大程度地减少花费和提升效率。
[0006]基于对抗生成模型(GANs)[11][12]的方法可以进行样本生成,并且被广泛地应用在数据扩增领域;GANs可以训练一个判别器去分辨生成器生成图像的真假,进而优化生成器的性能。传统的GANs一般直接从噪声生成和目标图像类似的图片;而有条件的对抗生成模型(Conditional GANs)则可以通过输入的条件来生成和条件对应的图片,例如构建和输入文本相关的图片,或者和输入掩膜标签对应的图片。同时sinGAN[13]是一种传统的GAN,可以利用单张训练图片从噪声生成大量的相似图像。
[0007]现有技术中缺少一种利用上述理论基础,通过有条件的sinGAN(Conditional sinGAN)来生成与构造的细胞核掩膜对应的图片,以达到数据扩增目的的一种方法。
generative model from a single natural image.
”ꢀ
in ICCV. IEEE, 2019, pp. 4570

4580。

技术实现思路

[0009]为了解决现有技术存在的上述问题,本专利技术目的在于提供一种低成本高效的细胞核图像分割方法,在尽可能减少标注成本的前提下,通过基于一致性的图像样本块选择算法达到和大量标注相当的分割性能。
[0010]一种低成本高效的细胞核图像分割方法,包括有以下步骤:S1,采集原始的病理图像数据集,生成原始病理图像;S2,将原始病理图像裁切为若干小尺寸的病理图像样本块,构成小尺寸样本块;S3,筛选出少量的小尺寸样本块,由病理医生标注生成标注掩膜,并将筛选出的少量的小尺寸样本块定义为标注样本块;S4,每一张标注掩膜和相对应的标注样本块组成标注样本对;得到少量的标注样本对;S5,创建一个伪掩膜构造模块,根据每一张标注掩膜生成大量的伪掩膜;S6,将每一对标注样本对作为初始输入条件,分别创建一个有条件输入的基于单对训练图片的对抗生成网络模型——即CSinGAN模型,每个CSinGAN模型包含一个CSinGAN模型生成器,每个CSinGAN模型生成器使用一对标注好的标注样本对;S7,将每张伪掩膜作为CSinGAN模型生成器的输入条件,生成与伪掩膜相对应的伪病理图片;S8,根据大量的伪掩膜训练CSinGAN模型生成器,用CSinGAN模型生成器生成大量的伪病理图片;S9,将每张伪病理图片与相对应的伪掩膜组成伪样本对;S10,将大量的伪样本对和标注样本对组成有标注分割训练集;标注样本对为真实样本对;S11,使用有标注分割训练集和大量的无标注病理图像对对基于伪标签的半监督细胞核分割模型进行训练,得到能够精准分割病理图像细胞核的模型。
[0011]进一步地,所述步骤S3的筛选出少量小尺寸样本块的操作中,包括以下操作内容:S31,采样;S32,双层聚类;S33,分数计算:计算每一个聚类簇中所有小尺寸样本块的代表性和内部一致性分数;筛选出每个聚类簇中分数最小的一个小尺寸样本块。
[0012]进一步地,所述步骤S31中,包括以下操作内容:从原始病理图像利用滑动窗口均匀地采样大小为的小尺寸样本块,其中s为4的倍数。
[0013]进一步地,所述步骤S32中,将小尺寸样本块聚集成聚类簇,按照小尺寸样本块与聚类簇中心的特征距离大小来选择代表性样本块,按照聚类簇内部各区域的小尺寸样本块的纹理和细胞核形态的相似程度来选择内部一致性样本块;所述双层聚类共执行两次K

means聚类,即k均值聚类算法。
[0014]进一步地,所述步骤S32的双层聚类操作步骤中包括以下操作内容:S321,第一次聚类为粗聚类,将小尺寸样本块聚类成个聚类簇;S322,将每一个聚类簇中的每一个小尺寸样本块再裁切成四个子区域;S323,进行第二次聚类,得到个聚类簇,即细聚类;S324,经过两次聚类,最终得到个聚类簇。
[0015]进一步地,每一次聚类使用的特征向量均为将样本块或子区域输入Imagenet预训练的ResNet50模型得到的特征。
[0016]进一步地,所述步骤S33中,包括以下操作内容:S3301,将粗聚类得到的每一个聚类簇定义为,每个聚类簇中的每一个小尺寸样本块定义为;S3302,将第个聚类簇中分数最小的一个小尺寸样本块定义为;个聚类簇中筛选出个;S3303,计算聚类簇聚类中心的特征向量,即该聚类簇所有特征向量的均值,定义为;S3304,筛选出第二轮聚类――即细聚类中拥有最多的子区域数量的聚类簇,将细聚类中拥有子区域数量最多的聚类簇定义为;S3305,计算聚类簇的聚类中心c;S3306,计算粗每一个小尺寸样本块的代表性距离、细代表性距离以及内部一致性距离;粗代表性距离为每一个小尺寸样本块离其所属的粗分割聚类簇中心的距离;细代表性距离为每一个小尺寸样本块的四个子区域与拥有的子区域数量最多的聚类簇中心之间的距离之和内部一致性距离为每一个小尺寸样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低成本高效的细胞核图像分割方法,其特征在于:包括有以下制作步骤:S1,采集原始的病理图像数据集,生成原始病理图像;S2,将原始病理图像裁切为若干小尺寸的病理图像样本块,构成小尺寸样本块;S3,筛选出少量的小尺寸样本块,由病理医生标注生成标注掩膜,并将筛选出的少量的小尺寸样本块定义为标注样本块;S4,每一张标注掩膜和相对应的标注样本块组成标注样本对;得到少量的标注样本对;S5,创建一个伪掩膜构造模块,根据每一张标注掩膜生成大量的伪掩膜;S6,将每一对标注样本对作为初始输入条件,分别创建一个有条件输入的基于单对训练图片的对抗生成网络模型——即CSinGAN模型,每个CSinGAN模型包含一个CSinGAN模型生成器,每个CSinGAN模型生成器使用一对标注好的标注样本对;S7,将每张伪掩膜作为CSinGAN模型生成器的输入条件,生成与伪掩膜相对应的伪病理图片;S8,根据大量的伪掩膜训练CSinGAN模型生成器,用CSinGAN模型生成器生成大量的伪病理图片;S9,将每张伪病理图片与相对应的伪掩膜组成伪样本对;S10,将大量的伪样本对和标注样本对组成有标注分割训练集;标注样本对为真实样本对;S11,使用有标注分割训练集和大量的无标注病理图像对基于伪标签的半监督细胞核分割模型进行训练,得到能够精准分割病理图像细胞核的模型。2.根据权利要求1所述低成本高效的细胞核图像分割方法,其特征在于:所述步骤S3的筛选出少量小尺寸样本块的操作中,包括以下操作内容:S31,采样;S32,双层聚类;S33,分数计算:计算每一个聚类簇中所有小尺寸样本块的代表性和内部一致性分数;筛选出每个聚类簇中分数最小的一个小尺寸样本块。3.根据权利要求2所述低成本高效的细胞核图像分割方法,其特征在于:所述步骤S31中,包括以下操作内容:从原始病理图像利用滑动窗口均匀地采样大小为的小尺寸样本块,其中s为4的倍数。4.根据权利要求3所述低成本高效的细胞核图像分割方法,其特征在于:所述步骤S32中,将小尺寸样本块聚集成聚类簇,按照小尺寸样本块与聚类簇中心的特征距离大小来选择代表性样本块,按照聚类簇内部各区域的小尺寸样本块的纹理和细胞核形态的相似程度来选择内部一致性样本块;所述双层聚类共执行两次K

means聚类,即k均值聚类算法。5.根据权利要求4所述低成本高效的细胞核图像分割方法,其特征在于:所述步骤S32的双层聚类操作步骤中包括以下操作内容:S321,第一次聚类为粗聚类,将小尺寸样本块聚类成个聚类簇;S322,将每一个聚类簇中的每一个小尺寸样本块再裁切成四个子区域;S323,进行第二次聚类,得到个聚类簇,即细聚类;
S324,经过两次聚类,最终得到个聚类簇。6.根据权利要求5所述低成本高效的细胞核图像分割方法,其特征在于:每一次聚类使用的特征向量均为将样本块或子区域输入Imagenet预训练的ResNet50模型得到的特征。7.根据权利要求6所述低成本高效的细胞核图像分割方法,其特征在于:所述步骤S33中,包括以下操作内容:S3301,将粗聚类得到的每一个聚类簇定义为,每个聚类簇中的每一个小尺寸样本块定义为;S3302,将第个聚类簇中分数最小的一个小尺寸样本块定义为;个聚类簇中筛选出个;S3303,计算聚类簇聚类中心的特征向量,即该聚类簇所有特征向量的均值,定义为;S3304,筛选出第二轮聚类――即细聚类中拥有最多的子区域数量的聚类簇,将细聚类中拥有子区域数量最多的聚类簇定义为;S3305,计算聚类簇的聚类中心c;S3306,计算粗每一个小尺寸样本块的代表性距离、细代表性距离以及内部一致性距离;粗代表性距离为每一个小尺寸样本块离其所属的粗分割聚类簇中心的距离;细代表性距离为每一个小尺寸样本块的四个子区域与拥有的子区域数量最多的聚类簇中心之间的距离之和内部一致性距离为每一个小尺寸样本块的任意两个子区域特征距离...

【专利技术属性】
技术研发人员:李灏峰楼威李冠彬韩晓光万翔
申请(专利权)人:深圳市大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1