当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于半监督学习的图像标注方法技术

技术编号:36706668 阅读:38 留言:0更新日期:2023-03-01 09:29
本发明专利技术提供一种基于半监督学习的图像标注方法,涉及机器学习及图像处理技术领域。该方法可以看成基于两个阶段实现,即基于协同运算的半监督学习阶段和基于TSVM的半监督学习阶段。基于协同运算的半监督学习阶段用于完成对于未标记样本集中占绝大多数的易标注样本的标注任务,控制每次训练标注的样本数,同时对训练集中样本的个数也进行了很好地控制;减轻了SVM分类器的负担,保证了分类的准确率。基于TSVM的半监督学习阶段用于完成剩余未标记样本的标注任务,将基于协同运算的半监督学习阶段已经标注完成的已标记样本和剩余的未标记样本都运用到训练之中,并且在训练过程中融入了集成学习的方法训练分类器的权重和训练集样本的权重。集样本的权重。集样本的权重。

【技术实现步骤摘要】
一种基于半监督学习的图像标注方法


[0001]本专利技术涉及机器学习及图像处理
,尤其涉及一种基于半监督学习的图像标注方法。

技术介绍

[0002]近年来,糖尿病有明显的年轻化趋势,缺乏运动、作息混乱、体重超标等都可能成为糖尿病的诱因。糖尿病是失明的重要原因,具体的表现为糖尿病性视网膜病变。
[0003]由于糖尿病患者人数逐年增加,产生的眼底图像也越来越多,医生就诊的任务也越来越重。糖尿病患者去就医后,医疗设备会采集到众多糖尿病患者的患病信息,丰富视网膜图像库。但是医生的精力是有限的,如果让医生对每张医学影像进行人工标注,会耗费大量人力物力,所以如何合理有效的利用这些宝贵的资源,从中提取出有价值的信息成为当务之急。现在机器学习的发展十分迅速,计算机医学影像和现代医学联系非常紧密,这极大地促进了现代医学的发展。可以利用机器学习的方法对医学影像进行处理并标注,不仅可以将医生从繁重的标注任务中解放出来去做一些更重要的工作,还可以为视网膜图像的研究者和医护人员提供可以参考的标注样本。
[0004]目前对于标注系统的研究主要分为交互式标注系统和非交互式标注系统两种。非交互式标注系统就是指在整个标注过程中是没有人工参与的,完全由系统自己完成标注。交互式标注系统是指在标注过程中有人工参与,但是大部分的标注工作依然是由系统承担,人工标注只占一小部分。
[0005]交互式标注系统大多是基于主动学习算法来进行模型的训练,因为主动学习采用少量的已标注样本对模型进行训练后就可以得到一个分类性能较好的分类器。具体步骤是先用标注好的数据来进行训练,然后利用训练好的学习器找出未标注数据中能对性能改善最大的数据来询问“专家”,专家在进行人工标注后,将标注后的样本加入已标注样本集中,用新的已标注样本集对分类器进行再次训练,这样一直迭代训练下去,直到达到主动学习的停止条件,就停止训练,输出训练好的分类器。但是主动学习主要依靠已标注样本集对分类器进行训练,没有对未标注样本集产生足够的关注,不能掌握样本的整体分布信息。即主动学习在利用已标注样本的基础上,仅仅对于占样本绝大多数的未标注样本中的少量难以标注即能对分类器性能改善最大的样本进行了利用,而剩下的大量的未标注样本没有得到充分的利用。所以能够进一步充分利用大量未标注样本的半监督学习方法得到更多的关注。
[0006]半监督学习是将监督学习和无监督学习相结合的一种学习方法。主要考虑的是如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习还可细分为纯半监督学习和直推学习,前者假定训练数据中的为标记数据并非待预测数据,而后者则假定学习过程中所考虑的为标记样本恰是待预测数据。半监督学习要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设,其本质是“相似的样本拥有相似的输出”。支持向量机(SVM)分类器因为其优秀的泛化能力,在小样本
的情况下会有很准确的分类结果,是分类效果最好的分类器之一。但是它也存在一些缺点,当数据量比较大,会有耗费很多时间、效率低下的问题。除此以外,过大的数据量也会对SVM分类器的分类准确率造成一定影响。TSVM是半监督支持向量机中的最著名代表,与标准SVM一样都是针对二分类的算法,其核心思想是:尝试为未标记样本找到合适的标记指派,使得超平面划分后的间隔最大化。TSVM采用局部搜索的策略来进行迭代求解,即首先使用有标记样本集训练出一个初始SVM,接着使用该学习器对未标记样本进行打标,这样所有样本都有了标记,并基于这些有标记的样本重新训练SVM,之后再寻找易出错样本不断调整。然后在已标注样本和进行预标注后的未标注样本中寻找一个间隔最大化的分类超平面。找到这个分类超平面之后,这个超平面两端的样本就获得了最终的标注结果。
[0007]传统的基于半监督学习训练SVM的方法采用的是将未标记样本一次性加入训练的方式,在产生最终的标注样本之前,会进行迭代的求取SVM超平面的操作,每次会对未标注样本中的所有样本进行预标记。由于未标记样本众多,每次求取分类器超平面都会达到很高的计算复杂度,所以完成一次对未标注样本进行预标记,会花费大量的时间。同时,对这些样本进行SVM求解,也需要耗费很多的空间资源。如果付出了许多代价,能够换回令人满意的结果,也是值得的。但是由于SVM分类器自身的特性,面对数量较大的样本,SVM分类器的表现也是难以令人满意的。

技术实现思路

[0008]本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于半监督学习的图像标注方法,实现对医学影像的自动标注。
[0009]为解决上述技术问题,本专利技术所采取的技术方案是:一种基于半监督学习的图像标注方法,包括以下步骤:
[0010]步骤1:收集医学影像,并对其中部分影像进行标注得到已标注样本集L,则其他未标注影像组成未标注样本集U;同时构建三个SVM分类器G1、G2和G3和缓冲池U


[0011]步骤2:将已标注样本集L平均分成三个已标注样本子集h1、h2、h3,已标注样本子集h1、h2、h3将分别用于对三个分类器G1、G2和G3的训练;然后从未标注样本集U中随机选择数量为u的样本,放入缓冲池U

中;
[0012]步骤3:使用已标注样本子集h1对分类器G1进行训练得到更新后的分类器G1

,并对样本子集h1进行去重更新;用更新后的分类器G1

对缓冲池U

中的未标注样本进行预标记并计算置信度,将置信度大于设定阈值的样本同时加入另外两个已标注样本子集h2、h3中,同时从未标注样本集U中选取样本向缓冲池中补充未标记样本;然后对分类器G2和G3以及样本子集h2和h3分别进行与分类器G1和样本子集h1相同流程的训练和去重更新,得到更新后的分类器G2

和G3

,并对更新后的三个样本子集进行汇总;
[0013]步骤3.1:用已标注样本子集h1对分类器G1进行训练,得到更新后的分类器G1


[0014]步骤3.2:判断已标注样本子集h1中样本个数是否达到已标注训练集样本阈值,若达到阈值,则通过分类器G1

对h1中样本进行标注,按照正样本和负样本的比例从h1中移除掉置信度大于设定阈值的样本,并将移除的样本中来自未标注样本集U的样本加入到集合L

中;
[0015]步骤3.3:用分类器G1

对缓冲池U

中的样本进行预标记,标记过后选取p个置信度
最高的正样本和q个置信度最高的负样本,并将这些样本加入h2和h3中,同时从未标记样本集U中抽取样本来补充缓冲池U

;然后对样本子集h2和h3中的样本进行去重操作;
[0016]步骤3.4:使用样本子集h2和h3分别对分类器G2和G3按照步骤3.1至步骤3.3进行对应的操作,并得到分类器G2

和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的图像标注方法,其特征在于:使用三个分类器进行训练标注,通过基于协同运算的半监督学习阶段和基于TSVM的半监督学习阶段实现;其中,基于协同运算的半监督学习阶段用于完成对于未标记样本集中易标注样本的标注任务,控制每次训练标注的样本数,同时对训练集中样本的个数进行控制;基于TSVM的半监督学习阶段用于完成剩余未标记样本的标注任务,将基于协同运算的半监督学习阶段已经标注完成的已标记样本和剩余的未标记样本都运用到训练之中,并且在训练中融入集成学习的方法训练分类器的权重和训练集样本的权重。2.根据权利要求1所述的一种基于半监督学习的图像标注方法,其特征在于:所述基于协同运算的半监督学习阶段包括以下步骤:步骤1:收集医学影像,并对其中部分影像进行标注得到已标注样本集L,则其他未标注影像组成未标注样本集U;同时构建三个SVM分类器G1、G2和G3和缓冲池U

;步骤2:将已标注样本集L平均分成三个已标注样本子集h1、h2、h3,已标注样本子集h1、h2、h3将分别用于对三个分类器G1、G2和G3的训练;然后从未标注样本集U中随机选择数量为u的样本,放入缓冲池U

中;步骤3:使用已标注样本子集h1对分类器G1进行训练得到更新后的分类器G1

,并对样本子集h1进行去重更新;用更新后的分类器G1

对缓冲池U

中的未标注样本进行预标记并计算置信度,将置信度大于设定阈值的样本同时加入另外两个已标注样本子集h2、h3中,同时从未标注样本集U中选取样本向缓冲池中补充未标记样本;然后对分类器G2和G3以及样本子集h2和h3分别进行与分类器G1和样本子集h1相同流程的训练和去重更新,得到更新后的分类器G2

和G3

,并对更新后的三个样本子集进行汇总;步骤4:迭代执行步骤3,直到未标注样本集U中没有剩余样本,得到m轮训练后的分类器G1

_m、G2

_m和G3

_m。3.根据权利要求2所述的一种基于半监督学习的图像标注方法,其特征在于:所述基于TSVM的半监督学习阶段包括以下步骤:步骤S1:将基于协同运算的半监督学习阶段所有去重处理后的已标注样本子集h1、h2和h3中的样本汇总成已标注样本集L
t
中,对TSVM分类器的各项参数进行初始化,以及为缓冲池U

中的各个未标注样本及L
t
中的各个已标注样本设置影响因子、为已标注样本和未标注样本设置各自的松弛变量;用步骤4中经m轮训练得到的分类器G1

_m对L
t
中的所有样本进行预标记,根据预标记结果更新分类器G1

_m的权重,然后将分类器G1

_m标记错误的样本加入到下一个分类器G2

_m的训练样本集;步骤S2:分别对基于协同运算的半监督学习阶段训练后得到的分类器G2

_m和G3

_m重复步骤S1的训练过程,得到训练后的分类器G2

和G3

;三个分类器训练结束后,得到缓冲池U

中所有未标注样本的标注结果和分类器G1

、G2

和G3

的权重,然后将三个分类器对缓冲池U

中所有未标注样本的标注结果按分类器的权重比例相加得到缓冲池U

中所有未标注样本的最终标注结果。4.根据权利要求3所述的一种基于半监督学习的图像标注方法,其特征在于:所述步骤3的具体方法为:步骤3.1:用已标注样本子集h1对分类器G1进行训练,得到更新后的分类器G1

;步骤3.2:判断已标注样本子集h1中样本个数是否达到已标注训练集样本阈值,若达到
阈值,则通过分类器G1

对h1中样本进行标注,按照正样本和负样本的比例从h1中移除掉置信度大于设定阈值的样本,并将移除的样本中来自未标注样本集U的样本加入到集合L

中;步骤3.3:用分类器G1

对缓冲池U

中的样本进行预标记,标记过后选取p个置信度最高的正样本和q个置信度最高的负样本,并将这些样本加入h2和h3中,同时从未标记样本集U中抽取样本来补充缓冲池U

;然后对样本子集h2和h3中的样本进行去重操作;步骤3.4:使用样本子集h2和h3分别对分类器G2和G3按照步骤3.1至步骤3.3进行对应的操作,并得到分类器G2

和G3
...

【专利技术属性】
技术研发人员:张宸刘礼铭董少奇刘席郡张长胜张斌
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1