【技术实现步骤摘要】
一种主动学习图像分类方法和系统
本专利技术属于模式识别与机器学习中的图像分类
,尤其涉及一种主动学习图像分类方法和系统。
技术介绍
图像分类是根据图像信息中所反映的不同特征将不同类别的目标区分开来的一种图像处理方法,其是图像处理领域中非常重要的研究课题。图像分类的关键问题是基于已标注类别的图片训练具有较高分类准确率的分类器模型。由于图片标注的代价较高(需由领域专家进行人工标注),本领域提供了基于主动学习的图像分类方法以减少领域专家人工标注的工作量。该方法选择尽可能少的但信息含量较高的样本进行类别标注,并基于标注样本训练分类器,迭代上述过程获得较高准确率的分类器。但上述方法在采集图像样本时,综合考虑样本的不确定性和代表性,选择二者结合值较大的图像样本作为信息含量较高的样本,由于其同时考虑样本的不确定性和代表性,针对原始的未标注样本集中的所有样本,需要计算、衡量每个样本的不确定性以及代表性,从而导致采样工作量较大,费时费力,尤其当未标注样本集较大时,该缺点更为凸显。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种主动学习图像分类方法和系统。以克服上述问题,在保 ...
【技术保护点】
一种主动学习图像分类方法,其特征在于,包括:对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数;对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;并将所述最具代表性图像样本集中的 ...
【技术特征摘要】
1.一种主动学习图像分类方法,其特征在于,包括:对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集,所述最不确定图像样本集中的每个图像样本对应一个表征其相对于预设的Z种图像类别的不确定性程度的第一参数,所述第一参数的参数值满足表征图像样本的不确定性较高的预设条件,其中,所述Z为大于1的自然数;对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集,所述最具代表性图像样本集中的每个图像样本对应一个表征其代表性程度的第二参数,所述第二参数的参数值满足表征图像样本的代表性较高的预设条件;对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本,所述最具信息含量图像样本对应一个表征其信息含量的第三参数,所述第三参数的参数值满足表征图像样本的信息含量最高的预设条件;并将所述最具信息含量图像样本作为待标注图像样本;对所述待标注图像样本进行类别标注,得到标注的图像样本;利用所述标注的图像样本训练图像分类器;利用所述图像分类器对目标图像进行分类。2.根据权利要求1所述的主动学习图像分类方法,其特征在于,所述对原始的未标注图像样本集进行分析、处理,得到包括至少一个图像样本的最不确定图像样本集具体包括:分析所述原始的未标注图像样本集中的每个图像样本所属的最优图像类别和次优图像类别,并获取所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,所述最优图像类别和所述次优图像类别分别为所述Z种图像类别中的一种;基于所述图像样本属于所述最优图像类别的第一概率和属于所述次优图像类别的第二概率,计算所述图像样本的最优次优标号BvSB值;获取所述BvSB值小于第一预设阈值的各图像样本,获取的所述各图像样本构成最不确定图像样本集。3.根据权利要求2所述的主动学习图像分类方法,其特征在于,所述对所述最不确定图像样本集进行分析、处理,得到包括至少一个图像样本的最具代表性图像样本集具体包括:分析最不确定图像样本集U中每个图像样本xi相对于剩余未标注图像样本集的代表性,并计算表征代表性程度的第二参数的参数值,所述剩余未标注图像样本集具体为最不确定图像样本集U中去掉所述图像样本xi之后的集合,其中,1≤i≤M,i为自然数,M为最不确定图像样本集U中所包含的图像样本的个数;获取所述第二参数的参数值大于第二预设阈值的各个图像样本,获取的所述各个图像样本构成最具代表性图像样本集。4.根据权利要求1-3任意一项所述的主动学习图像分类方法,其特征在于,所述对所述最具代表性图像样本集进行分析、处理,得到最具信息含量图像样本具体包括:对于所述最具代表性图像样本集中的每个图像样本dk,利用所述图像样本dk更新图像分类器,得到新分类器,并使用所述新分类器对所述最具代表性图像样本集中除所述图像样本dk之外的其他各图像样本进行图像分类,其中,1≤k≤N,k为自然数,N为所述最具代表性图像样本集中包括的图像样本的个数;计算所述新分类器对所述其他各图像样本进行图像分类时的期望错误率,并将所述期望错误率与所述图像样本dk相对应;获取值最小的期望错误率,并依据所述值最小的期望错误率获取对应的图像样本,将所述对应的图像样本标记为最具信息含量图像样本。5.一种主动学习图像分类系统,其特征在于,包括第一采样模块、第...
【专利技术属性】
技术研发人员:赵朋朋,李承超,吴健,鲜学丰,崔志明,
申请(专利权)人:苏州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。