一种基于半监督学习的图像标注方法技术

技术编号：36706668 阅读：38 留言：0更新日期：2023-03-01 09:29

本发明专利技术提供一种基于半监督学习的图像标注方法，涉及机器学习及图像处理技术领域。该方法可以看成基于两个阶段实现，即基于协同运算的半监督学习阶段和基于TSVM的半监督学习阶段。基于协同运算的半监督学习阶段用于完成对于未标记样本集中占绝大多数的易标注样本的标注任务，控制每次训练标注的样本数，同时对训练集中样本的个数也进行了很好地控制；减轻了SVM分类器的负担，保证了分类的准确率。基于TSVM的半监督学习阶段用于完成剩余未标记样本的标注任务，将基于协同运算的半监督学习阶段已经标注完成的已标记样本和剩余的未标记样本都运用到训练之中，并且在训练过程中融入了集成学习的方法训练分类器的权重和训练集样本的权重。集样本的权重。集样本的权重。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督学习的图像标注方法

[0001]本专利技术涉及机器学习及图像处理
，尤其涉及一种基于半监督学习的图像标注方法。

技术介绍

[0002]近年来，糖尿病有明显的年轻化趋势，缺乏运动、作息混乱、体重超标等都可能成为糖尿病的诱因。糖尿病是失明的重要原因，具体的表现为糖尿病性视网膜病变。
[0003]由于糖尿病患者人数逐年增加，产生的眼底图像也越来越多，医生就诊的任务也越来越重。糖尿病患者去就医后，医疗设备会采集到众多糖尿病患者的患病信息，丰富视网膜图像库。但是医生的精力是有限的，如果让医生对每张医学影像进行人工标注，会耗费大量人力物力，所以如何合理有效的利用这些宝贵的资源，从中提取出有价值的信息成为当务之急。现在机器学习的发展十分迅速，计算机医学影像和现代医学联系非常紧密，这极大地促进了现代医学的发展。可以利用机器学习的方法对医学影像进行处理并标注，不仅可以将医生从繁重的标注任务中解放出来去做一些更重要的工作，还可以为视网膜图像的研究者和医护人员提供可以参考的标注样本。
[0004]目前对于标注系统的研究主要分为交互式标注系统和非交互式标注系统两种。非交互式标注系统就是指在整个标注过程中是没有人工参与的，完全由系统自己完成标注。交互式标注系统是指在标注过程中有人工参与，但是大部分的标注工作依然是由系统承担，人工标注只占一小部分。
[0005]交互式标注系统大多是基于主动学习算法来进行模型的训练，因为主动学习采用少量的已标注样本对模型进行训练后就可以得到一个分类性能较好的分类器。具体...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的图像标注方法，其特征在于：使用三个分类器进行训练标注，通过基于协同运算的半监督学习阶段和基于TSVM的半监督学习阶段实现；其中，基于协同运算的半监督学习阶段用于完成对于未标记样本集中易标注样本的标注任务，控制每次训练标注的样本数，同时对训练集中样本的个数进行控制；基于TSVM的半监督学习阶段用于完成剩余未标记样本的标注任务，将基于协同运算的半监督学习阶段已经标注完成的已标记样本和剩余的未标记样本都运用到训练之中，并且在训练中融入集成学习的方法训练分类器的权重和训练集样本的权重。2.根据权利要求1所述的一种基于半监督学习的图像标注方法，其特征在于：所述基于协同运算的半监督学习阶段包括以下步骤：步骤1：收集医学影像，并对其中部分影像进行标注得到已标注样本集L，则其他未标注影像组成未标注样本集U；同时构建三个SVM分类器G1、G2和G3和缓冲池U
′
；步骤2：将已标注样本集L平均分成三个已标注样本子集h1、h2、h3，已标注样本子集h1、h2、h3将分别用于对三个分类器G1、G2和G3的训练；然后从未标注样本集U中随机选择数量为u的样本，放入缓冲池U
′
中；步骤3：使用已标注样本子集h1对分类器G1进行训练得到更新后的分类器G1
′
，并对样本子集h1进行去重更新；用更新后的分类器G1
′
对缓冲池U
′
中的未标注样本进行预标记并计算置信度，将置信度大于设定阈值的样本同时加入另外两个已标注样本子集h2、h3中，同时从未标注样本集U中选取样本向缓冲池中补充未标记样本；然后对分类器G2和G3以及样本子集h2和h3分别进行与分类器G1和样本子集h1相同流程的训练和去重更新，得到更新后的分类器G2
′
和G3
′
，并对更新后的三个样本子集进行汇总；步骤4：迭代执行步骤3，直到未标注样本集U中没有剩余样本，得到m轮训练后的分类器G1
′
_m、G2
′
_m和G3
′
_m。3.根据权利要求2所述的一种基于半监督学习的图像标注方法，其特征在于：所述基于TSVM的半监督学习阶段包括以下步骤：步骤S1：将基于协同运算的半监督学习阶段所有去重处理后的已标注样本子集h1、h2和h3中的样本汇总成已标注样本集L
t
中，对TSVM分类器的各项参数进行初始化，以及为缓冲池U
′
中的各个未标注样本及L
t
中的各个已标注样本设置影响因子、为已标注样本和未标注样本设置各自的松弛变量；用步骤4中经m轮训练得到的分类器G1
′
_m对L
t
中的所有样本进行预标记，根据预标记结果更新分类器G1
′
_m的权重，然后将分类器G1
′
_m标记错误的样本加入到下一个分类器G2
′
_m的训练样本集；步骤S2：分别对基于协同运算的半监督学习阶段训练后得到的分类器G2
′
_m和G3
′
_m重复步骤S1的训练过程，得到训练后的分类器G2
″
和G3
″
；三个分类器训练结束后，得到缓冲池U
′
中所有未标注样本的标注结果和分类器G1
″
、G2
″
和G3
″
的权重，然后将三个分类器对缓冲池U
′
中所有未标注样本的标注结果按分类器的权重比例相加得到缓冲池U
′
中所有未标注样本的最终标注结果。4.根据权利要求3所述的一种基于半监督学习的图像标注方法，其特征在于：所述步骤3的具体方法为：步骤3.1：用已标注样本子集h1对分类器G1进行训练，得到更新后的分类器G1
′
；步骤3.2：判断已标注样本子集h1中样本个数是否达到已标注训练集样本阈值，若达到
阈值，则通过分类器G1
′
对h1中样本进行标注，按照正样本和负样本的比例从h1中移除掉置信度大于设定阈值的样本，并将移除的样本中来自未标注样本集U的样本加入到集合L
′
中；步骤3.3：用分类器G1
′
对缓冲池U
′
中的样本进行预标记，标记过后选取p个置信度最高的正样本和q个置信度最高的负样本，并将这些样本加入h2和h3中，同时从未标记样本集U中抽取样本来补充缓冲池U
′
；然后对样本子集h2和h3中的样本进行去重操作；步骤3.4：使用样本子集h2和h3分别对分类器G2和G3按照步骤3.1至步骤3.3进行对应的操作，并得到分类器G2
′
和G3
...

【专利技术属性】
技术研发人员：张宸，刘礼铭，董少奇，刘席郡，张长胜，张斌，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人