System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于歪斜相似度和无标记样本的融合弱监督图像分类方法技术_技高网
当前位置: 首页 > 专利查询>燕山大学专利>正文

基于歪斜相似度和无标记样本的融合弱监督图像分类方法技术

技术编号:41204456 阅读:6 留言:0更新日期:2024-05-07 22:30
本发明专利技术公开了基于歪斜相似度和无标记样本的融合弱监督图像分类方法,属于弱监督图像处理领域,包括构建包含具有歪斜相似置信度的样本对和无标记样本点的数据集;根据数据集的大小和复杂程度搭建分类神经网络模型,初始化分类神经网络模型的权重参数和偏置参数;设计歪斜相似置信度参数化模型,并设计经验风险损失函数作为分类神经网络模型的训练标准;选择基于梯度的优化算法最小化经验风险损失函数;训练分类神经网络模型,得到分类神经网络模型的最优解;获取训练好的分类神经网络模型,对待标注图像进行分类。本发明专利技术克服了标注不准确性、信息资源利用效率低以及成本限制等问题,能够应对复杂的数据形式、解决现实世界中多样化的图像分类任务。

【技术实现步骤摘要】

本专利技术涉及弱监督图像处理领域,尤其是基于歪斜相似度和无标记样本的融合弱监督图像分类方法


技术介绍

1、在科技不断进步的今天,各个领域的图像数据量迅速增加,这使得图像的管理和分类变得更加复杂。面对复杂的数据形式,如何有效地进行信息组织和检索显得至关重要。在这个背景下,图像分类技术崭露头角,成为解决方案,为信息的组织性和检索性提供有效支持。

2、图像分类技术通过对未分类的图片进行标记和分类,能够提高信息的组织性和检索性。这项技术能够充分有效的学习图像特征,在各行各业的管理过程中能够提高工作效率、加快决策过程,并同时提高决策质量。这为各行业提升综合竞争力带来了积极的意义,对于推动科技和各行业的发展发挥着重要作用。

3、传统的图像分类方法主要依赖于监督学习,采用机器学习技术对具有准确标记的图像进行学习和训练。然而,这种方法对于准确的标记信息有着强烈依赖,从而导致高昂的时间和人工成本。为了克服传统监督学习方法的这一困难,研究人员提出了各种弱监督模型,如中国专利公开号为cn110689081a的“一种基于分歧学习的弱监督目标分类和定位方法”以及中国专利公开号为cn113628197a的“一种基于对比学习的弱监督全切片组织病理图像分类方法”。这些模型不要求对样本进行准确标记,从而有效降低了时间和人工成本。

4、在近年来,针对弱监督领域中不断复杂化的数据形式,研究者们提出了许多创新的弱监督学习架构。例如,shinoda k,kaji h,sugiyama m.在其文献"binaryclassification from positive data with skewed confidence"[j].arxiv preprintarxiv:2001.10642,2020.中提出了一种基于正类样本的歪斜置信度训练二分类器的方法。另一方面,cao y,feng l,xu y,等人在文献"learning from similarity-confidencedata"[c]//international conference on machine learning.pmlr,2021:1272-1282.中,介绍了一种基于成对样本之间的相似置信度训练二分类器的方法。然而,这些方法并未解决由于无标记样本点存在而导致的资源浪费问题。此外,"learning from similarity-confidence data"一文中提出的模型未能考虑到估计的相似置信度分布与真实置信度分布相距较大的情况,这凸显了在弱监督学习领域中面临的一些挑战和局限性。

5、图像分类的分类任务在众多现实世界的应用中十分普遍。以医学病理学为例,医院或研究机构通常拥有包含大量组织切片图像的数据库,其中包括正常组织、良性病变和恶性病变的样本。对这些组织切片图像进行精确分类是一项关键任务。在这个背景下,成对的组织切片被视为来自同一患者的两个样本。然而,由于涉及患者的隐私问题,有些患者不愿意提供诊断信息,因此无法为所有样本提供准确的标注。尽管如此,标注人员仍然可以提供一部分成对样本之间的相似置信度。由于不同标注人员的专业水平不同,相似置信度与真实的置信度分布之间可能存在较大偏差。

6、在图像样本分类中,通常面临两种常见情形:首先,在估计无标记的两个样本之间的相似程度时,由于标注人员缺乏专业知识,所提供的相似置信度与真实置信度偏差较大,导致估计的相似置信度分布与真实相似置信度分布相比出现严重畸变;其次,高昂的时间和人工标注成本使得数据中包含大量无标记的样本,而这些宝贵的信息资源却没有得到充分利用,导致资源浪费。

7、鉴于此,有必要研发一种基于歪斜相似度和无标记样本的融合弱监督图像分类方法,以解决上述问题。


技术实现思路

1、本专利技术需要解决的技术问题是提供基于歪斜相似度和无标记样本的融合弱监督图像分类方法,不仅克服了标注不准确性以及成本限制等问题,还提供了一种在医学病理学图像分类中更准确和高效的解决方案。

2、为解决上述技术问题,本专利技术所采用的技术方案是:

3、一种基于歪斜相似度和无标记样本的融合弱监督图像分类方法,具体包括以下步骤:

4、s1,构建包含具有歪斜相似置信度的样本对和无标记样本点的数据集;

5、s2,根据数据集的大小和复杂程度选择合适的分类神经网络模型结构,搭建分类神经网络模型,初始化分类神经网络模型的权重参数和偏置参数;

6、s3,设计歪斜相似置信度参数化模型,并基于歪斜相似置信度参数化模型设计经验风险损失函数作为分类神经网络模型的训练标准;

7、s4,选择基于梯度的优化算法最小化经验风险损失函数;

8、s5,训练分类神经网络模型,对步骤s1中的图像数据集进行批处理,将每一批数据输入分类神经网络模型,通过优化算法不断迭代更新分类神经网络模型的权重参数和偏置参数,使经验风险损失函数收敛到一个局部最小值,从而得到分类神经网络模型的最优解;

9、s6,获取训练好的分类神经网络模型,对待标注图像进行分类。

10、本专利技术技术方案的进一步改进在于:在s1中,所述样本对仅携带歪斜的相似置信度信息,不具有任何类别标签信息;所述独立样本点也不携带任何类别标签信息;定义训练样本集中成对样本的数据集为其中ns代表成对样本的组合数;训练样本集中没有标签的独立点样本的数据集为nu代表无标记点样本的个数。

11、本专利技术技术方案的进一步改进在于:在s2中,所述分类神经网络模型是任意经过大量图像数据训练并且已经充分收敛的网络模型。

12、本专利技术技术方案的进一步改进在于:在s3中,所述经验风险损失函数模型中的损失函数,能够选择任意用于二分类任务的损失函数;具体包括以下步骤:

13、s31,定义旨在描述成对样本间歪斜的相似置信度的歪斜相似置信度参数化模型;

14、所述歪斜相似置信度参数化模型能够采用各种数学形式,采用指数模型时具体实施方式如下:

15、定义s(x,x′)代表样本x和x′之间的准确的相似程度分布,为歪斜的相似置信度分布;定义歪斜置信度参数化模型为:

16、

17、其中,0<k<∞是歪斜相似置信度参数化模型的超参数;

18、s32,定义假负率作为先验知识,通过最小化经验分类错误率和假负率之间的平方损失确定歪斜置信度参数化模型中的最优超参数k*;

19、具体地,定义假负率φ:在二分类问题中,实际为正例的样本中被分类神经网络模型错误地预测为负例的比例;假负率的表达式表示如下:

20、φ=∫{x:g(x)<0}p(x|y=+1)dx    (9)

21、其中,x代表图像样本;y∈{+1,-1}表示样本标签集合;p(x|y=+1)代表正类样本的分布,类别标签为+1;g(x)代表分类神经网络模型的输出的类别标签结果;

22、定义经验分类错误率:

23、...

【技术保护点】

1.一种基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,在S1中,所述样本对仅携带歪斜的相似置信度信息,不具有任何类别标签信息;所述独立样本点也不携带任何类别标签信息;定义训练样本集中成对样本的数据集为其中ns代表成对样本的组合数;训练样本集中没有标签的独立点样本的数据集为nu代表无标记点样本的个数。

3.根据权利要求1所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,在S2中,所述分类神经网络模型是任意经过大量图像数据训练并且已经充分收敛的网络模型。

4.根据权利要求1所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,在S3中,所述经验风险损失函数模型中的损失函数,能够选择任意用于二分类任务的损失函数;具体包括以下步骤:

5.根据权利要求4所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,在S5中,具体包括以下步骤:

6.根据权利要求5所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,所述超参数至少包括调整学习率、批量大小和迭代次数。

7.根据权利要求5所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,在S52中,具体包括以下步骤:

...

【技术特征摘要】

1.一种基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,在s1中,所述样本对仅携带歪斜的相似置信度信息,不具有任何类别标签信息;所述独立样本点也不携带任何类别标签信息;定义训练样本集中成对样本的数据集为其中ns代表成对样本的组合数;训练样本集中没有标签的独立点样本的数据集为nu代表无标记点样本的个数。

3.根据权利要求1所述的基于歪斜相似度和无标记样本的融合弱监督图像分类方法,其特征在于,在s2中,所述分类神经网络模型是任意经过大量图像数据训练并且已经充分收敛的网络模型...

【专利技术属性】
技术研发人员:李军朋黄舒莹华长春杨亚娜王晓越
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1