一种基于潜层表征的主动学习样本标注方法技术

技术编号:37229547 阅读:55 留言:0更新日期:2023-04-20 23:12
本发明专利技术涉及一种基于潜层表征的主动学习样本标注方法,述样本标注方法包括:S1、特征提取步骤:通过自动编码器模拟从病理图像中提取潜层的表征;S2、判别步骤:将病理图像作为判别器D的输入,训练一个二分类模型,通过判别器D区分有标签和无标签的样本数据集,得到概率值;S3、样本标注步骤:设置样本选择策略ALHS,根据判别器的输出概率值分布通过样本选择策略ALHS选择未标注的样本进行标注,实现病理数据集的自动标注。本发明专利技术能够极大减轻病理学家标注数据集的沉重负担,能够缓解样本冗余问题,提高样本选择的质量;能够极大地节省样本标注成本;通用性强,能适用于类不平衡和噪声样本的场合。样本的场合。样本的场合。

【技术实现步骤摘要】
一种基于潜层表征的主动学习样本标注方法


[0001]本专利技术涉及图像处理
,尤其涉及一种基于潜层表征的主动学习样本标注方法。

技术介绍

[0002]准确和及时的癌症诊断是治疗每个癌症患者的关键,而癌症诊断一般是由人类病理学家通过显微镜观察患者病理玻片上的染色标本进行判断。每张病理玻片图像(WSI)包含丰富的表型信息,对癌症的诊断和分类至关重要。然而一张玻片图像可能包含数以万计的图像块,仅仅依靠病理学家的视觉检查来对大型WSI数据集中的图像进行标注,将花费大量的时间和精力,代价极高。并且世界上大多数国家面临着病理学家严重短缺的问题,因此极大地阻碍了癌症患者的及时诊断和有效治疗。人工智能技术的进一步能够改善目前病理学家缺乏的困境。机器学习,特别是深度学习技术,在许多领域都取得了非凡的表现,但是其成功在很大程度上依赖于大规模的带标注的训练数据集。
[0003]而对于病理诊断,首先要解决WSI数据集中标注样本严重不足的问题,即WSI数据集中被专家标注的样本数量有限。因为WSI数据集图像样本的标注工作是一个劳动密集型的人工过程,需要领域专家即病理学家的大量时间、精力地投入,而病理学家人数有限、工作时间有限,因此完全标注WSI数据集中的样本的成本非常高。主动学习作为机器学习的一个分支,试图利用尽可能少的、高质量的样本标注来实现模型的最佳性能,即对于WSI数据集,由于数据样本存在冗余、质量差的问题,无需对所有样本进行标注,而是通过主动学习技术选择一些高质量的样本对模型进行训练,从而获得与全标注样本数据集训练得到的模型相当的性能。现有技术提出了一种使用基因表达数据的主动学习方法,利用粗糙模糊分类器进行癌症样本分类,也有提出一个主动学习框架,利用条件生成式对抗网络(cGANs)选择信息量最大的样本,生成具有不同疾病特征的真实胸部X光图像,然而,却很少有将主动学习方法用于病理图像标注的。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息只用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的缺点,提供了一种基于潜层表征的主动学习样本标注方法,通过将主动学习用于病理图像标注,有效避免了样本冗余问题,提高了训练样本集的质量。
[0006]本专利技术的目的通过以下技术方案来实现:一种基于潜层表征的主动学习样本标注方法,所述样本标注方法包括:
[0007]S1、特征提取步骤:通过自动编码器模拟从病理图像中提取潜层的表征;
[0008]S2、判别步骤:将病理图像作为判别器D的输入,训练一个二分类模型,通过判别器D区分有标签和无标签的样本数据集,得到概率值;
[0009]S3、样本标注步骤:设置样本选择策略ALHS,根据判别器的输出概率值分布通过样本选择策略ALHS选择未标注的样本进行标注,实现病理数据集的自动标注。
[0010]所述步骤S1具体包括以下内容:
[0011]利用自动编码器进行潜层的表征学习,将医疗数据集样本嵌入低维空间,设为原始输入空间到学习到的潜层表征的映射,即z=Ψ(x),解码器根据低维表征z重建输入图像,设为潜层特征表示到重建后图像的映射,即自动编码器的目标函数为MAE损失函数,表示为x表示自动编码器的输入,即原始图像,表示自动编码器的输出,即重建后图像,N表示图像的数量;
[0012]自动编码器模型在训练过程中使用随机梯度下降法来优化目标函数并保存损失最小的模型,在自动编码器模型训练好后,在实现图像重建的同时,其潜层表征信息为判别器D提供好的表征输入,以区分有标签和无标签的数据集。
[0013]所述步骤S2具体包括以下内容:
[0014]将有标签的样本集记为无标签的样本集记为所有的病理图像作为判别器D的输入,将有标签的样本的标签设为1,无标签的样本的标签设为0;
[0015]设判别器是输入空间,为编码器学习到的图像的潜层表征,是标签空间,其中l是已标注样本集的标签,即全为1的集合,u是未标注样本集的标签,即全为0的集合,于是有判别器D的目标函数为交叉熵损失函数:为0的集合,于是有判别器D的目标函数为交叉熵损失函数:其中,t
i
为该样本的标签1或0,p
i
为模型预测该样本标签为t
i
的预测概率,在主动学习过程的每一次迭代中,在上使用随机梯度下降法来优化目标函数,并保存最小的训练损失的模型,得到最佳模型
[0016]所述步骤S3具体包括以下内容:
[0017]根据所述判别步骤的输出概率值对数据集进行排序,按照顺序将其分为K个部分,在数据集的每个部分通过随机抽样法或者最小置信度法或者边际抽样法或者熵方法选择一个样本由病理学家进行标注。
[0018]所述最小置信度法具体包括:
[0019]通过选择具有最小最大概率的样本进行标记,其中,是模型对输入x预测概率最大的类,θ表示训练好的机器学习模型的参数集。
[0020]所述边际抽样法具体包括:通过公式选择最大概率和次最大概率之间差异最微小的样本,其中,和分别表示对于样本点x模型预测的最大可能的类别和第二大可能的类别。
[0021]所述熵方法具体包括:通过公式作为不确定性抽样策略使用预测概率的熵作为不确定性测量,来选择样本,其中S为该样本集合的类别数,p
i
(x)表示样本x被预测为第i类的概率。
[0022]本专利技术具有以下优点:一种基于潜层表征的主动学习样本标注方法,能够极大减轻病理学家标注数据集的沉重负担,能够缓解样本冗余问题,提高样本选择的质量;能够极大地节省样本标注成本;通用性强,能适用于类不平衡和噪声样本的场合。
附图说明
[0023]图1为本专利技术的主动学习样本标注过程示意图;
[0024]图2为自动编码器的网络结构示意图;
[0025]图3为判别器的网络结构示意图;
[0026]图4为ALHS样本选择策略示意图;
[0027]图5为Kather

s数据集上的平均准确率示意图;
[0028]图6为Kather

s数据集上25%样本标注和100%样本标注的混淆矩阵示意图;
[0029]图7为BreakHis数据集上的平均准确率示意图;
[0030]图8为BreakHis数据集上45%样本标注和100%样本标注的混淆矩阵示意图;
[0031]图9为Kather

s数据集和BreakHis数据集的潜层表征示意图;
[0032]图10为四种方法在Kather

s数据集上的样本选择可视化示意图;
[0033]图11为四种方法在BreakHis数据集上的样本选择可视化示意图。
具体实施方式
[0034]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于潜层表征的主动学习样本标注方法,其特征在于:所述样本标注方法包括:S1、特征提取步骤:通过自动编码器模拟从病理图像中提取潜层的表征;S2、判别步骤:将病理图像作为判别器D的输入,训练一个二分类模型,通过判别器D区分有标签和无标签的样本数据集,得到概率值;S3、样本标注步骤:设置样本选择策略ALHS,根据判别器的输出概率值分布通过样本选择策略ALHS选择未标注的样本进行标注,实现病理数据集的自动标注。2.根据权利要求1所述的一种基于潜层表征的主动学习样本标注方法,其特征在于:所述步骤S1具体包括以下内容:利用自动编码器进行潜层的表征学习,将医疗数据集样本嵌入低维空间,设Ψ:为原始输入空间到学习到的潜层表征的映射,即z=Ψ(x),解码器根据低维表征z重建输入图像,设Φ:为潜层特征表示到重建后图像的映射,即自动编码器的目标函数为MAE损失函数,表示为x表示自动编码器的输入,即原始图像,表示自动编码器的输出,即重建后图像,N表示图像的数量;自动编码器模型在训练过程中使用随机梯度下降法来优化目标函数并保存损失最小的模型,在自动编码器模型训练好后,在实现图像重建的同时,其潜层表征信息为判别器D提供好的表征输入,以区分有标签和无标签的数据集。3.根据权利要求1所述的一种基于潜层表征的主动学习样本标注方法,其特征在于:所述步骤S2具体包括以下内容:将有标签的样本集记为无标签的样本集记为所有的病理图像作为判别器D的输入,将有标签的样本的标签设为1,无标签的样本的标签设为0;设判别器D:设判别器D:是输入空间,为编码器学习到的图像的潜层表征,是标签空间,其中l是已标注样本集的标签,即全为1的集合,u...

【专利技术属性】
技术研发人员:龚海刚孙怡忻吴磊刘明王晓敏刘明辉解天舒程旋
申请(专利权)人:电子科技大学长三角研究院衢州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1