【技术实现步骤摘要】
一种基于多示例主动学习的代表性图像选取方法
本专利技术涉及机器学习领域,具体涉及一种基于多示例主动学习的代表性图像选取方法。
技术介绍
随着互联网技术的快速发展,借助各种互联网工具,人们可以从互联网快速获取大量数据,然而从互联网获取的数据也通常伴随着较多的噪声及大量的内容冗余。在机器学习算法的训练过程中,如果不对原始数据进行清洗而直接标注,不仅将造成大量人力资源浪费,而且由于噪声的影响算法难以达到期望的训练效果。利用弱监督学习强大的分析能力,可以先对获取的原始数据集进行筛选。根据训练数据标注的程度,可将机器学习分为强监督学习、弱监督学习、无监督学习三种。强监督学习中每个训练样本都有唯一与其对应的正确的标签,应用有检测、分类等;无监督学习只有训练样本,没有标签,应用有聚类、降维;弱监督学习介于两者之间,并非所有样本都有正确的标签,应用有主动学习、多示例学习等。1997年Dietterich等人在研究药物分子活性检测时提出了多示例学习模型(Dietterich,ThomasG.;Lathrop,RichardH.;Lozano-Pérez,Tomás,Solvingt ...
【技术保护点】
1.一种基于多示例主动学习的代表性图像选取方法,其特征在于:所述方法包括以下步骤:(1)图像原始特征提取:将n张原始输入图像都调整到统一大小,并进行灰度化以及使用Gamma矫正方法进行灰度归一化,作为原始样本图像;利用HOG算法获取原始样本图像的HOG特征;将所有原始样本图像的HOG特征组合成原始特征矩阵Xs;(2)原始特征降维:使用PCA算法对原始特征矩阵Xs进行降维,得到降维后的特征集合X;(3)图像预聚类:基于降维后的特征集合X,使用DBSCAN算法对原始样本图像进行预聚类,得到聚类集合C;(4)选取初始训练样本:初始化原始样本集合Dp、训练样本集合Dtrain、难分 ...
【技术特征摘要】
1.一种基于多示例主动学习的代表性图像选取方法,其特征在于:所述方法包括以下步骤:(1)图像原始特征提取:将n张原始输入图像都调整到统一大小,并进行灰度化以及使用Gamma矫正方法进行灰度归一化,作为原始样本图像;利用HOG算法获取原始样本图像的HOG特征;将所有原始样本图像的HOG特征组合成原始特征矩阵Xs;(2)原始特征降维:使用PCA算法对原始特征矩阵Xs进行降维,得到降维后的特征集合X;(3)图像预聚类:基于降维后的特征集合X,使用DBSCAN算法对原始样本图像进行预聚类,得到聚类集合C;(4)选取初始训练样本:初始化原始样本集合Dp、训练样本集合Dtrain、难分类样本集合Dhs为空;将所有原始样本图像加入到原始样本集合Dp;计算聚类集合C中聚类簇的密度中心,选取密度中心邻近区域的原始样本图像为初始训练样本,加入训练样本集合Dtrain;加入训练样本集合的原始样本图像从原始样本集合中移除,所有样本有且仅有唯一所属的集合;(5)训练分类器:采用Xception网络作为分类器,将Xception网络最后一个全连接层的输出个数设置为聚类结果的类别数,使用训练样本集合Dtrain中的样本训练分类器;(6)调整难分类样本集合:若难分类样本集合为空,则跳过该步骤,执行步骤(7),否则使用步骤(5)的分类器对难分类样本集合中的每个样本进行预测,根据预测结果和BvSB准则计算样本所属类别概率最大的前两个类别的概率差值diff,将差值diff大于阈值Vthre的样本从难分类样本集合Dhs中移动到原始样本集合Dp;(7)调整原始样本集合:使用步骤(5)的分类器对原始样本集合Dp中的每个样本进行预测,根据预测结果和BvSB准则计算样本所属类别概率最大的前两个类别的概率差值diff,将差值diff最大的u个样本从原始样本集合Dp中移动到训练样本集合Dtrain,将差值diff最小的v个样本从原始样本集合Dp中移动到难分类样本集合Dhs;(8)迭代训练:重复执行步骤(5)至步骤(7),以调整后的训练样本集合Dtrain重新训练分类器,使用得到的分类器分别对难分类样本集合Dhs和原始样本集合Dp进行预测,根据预测结果和BvSB准则调整三个样本集合中的样本,直至原始样本集合Dp中的样本数量小于指定数量p,结束迭代;p=n×αt,其中n为输入样本总数,αt的取值范围为[0.1,0.3];(9)输出代表性图像:输出的代表性图像是基于难分类样本集合Dhs和训练样本集合Dtrain选取:对于难分类样本集合Dhs,选择其所有样本对应的原始输入图像作为代表性图像;对于训练样本集合Dtrain,按照比例选择集合中q个样本对应的原始输入图像作为代表性图像,其中,q=nh×αo,nh为难分类样本集合Dhs中的样本总数,αo的取值范围为[0.05,0.4]。2.根据权利要求1所述的一种基于多示例主动学习的代表性图像选取方法,其特征在于:所述的步骤(1)中,将n张原始输入图像的分辨率都调整至W×W后进行灰度化和灰度归一化处理,作为原始样本图像,其中W的取值范围为[512,1024];对原始样本图像提取HOG特征,将输入n张原始样本图像的HOG特征组合成大小为n×r的矩阵Xs,其中r=36×(W/8-1)2,为原始HOG特征的维度。3.根据权利要求1所述的一...
【专利技术属性】
技术研发人员:朱威,王义锋,陈悦峰,滕游,陈朋,郑雅羽,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。