基于半监督SVM集成学习的分类方法技术

技术编号:10147762 阅读:224 留言:0更新日期:2014-06-30 16:54
本发明专利技术公开了一种基于半监督SVM集成学习的分类方法,主要解决现有分类方法对样本分布未知,尤其是样本分布不平衡时分类正确率低和不稳定的问题。其实现步骤是:(1)分别对训练样本集和测试样本集进行归一化;(2)更新归一化后测试样本集中正、负样本的比率,通过局部搜索构造差异性较大的基分类器;(3)用k-means算法对基分类器的分类结果进行聚类;(4)通过集成学习的分类方法获得测试样本集的最终分类结果。本发明专利技术通过更新正、负样本比率构造差异性较大的基分类器,利用更多的测试样本正确分类信息,并结合邓恩指标的集成学习的分类方法,提高了分布未知的样本分类正确率和稳定性,可用于模式识别、目标检测和分类的问题。

【技术实现步骤摘要】
基于半监督SVM集成学习的分类方法
本专利技术属于图像处理
,特别涉及分布未知的数据分类方法,可用于模式识别、目标检测、分布未知的数据分类。
技术介绍
根据学习过程中是否存在有标记的样本,传统的机器学习可以分为监督学习和无监督学习两种。监督学习通过已有的训练样本得到一个最优模型,再利用这个模型将所有的输入映射为相对的输出,对输出进行判断从而实现分类的目的。但在很多实际应用中,由于缺少形成模式类的知识,或者实际工作中的困难,只能利用没有类别标记的样本,即所谓的无监督学习。半监督学习是监督学习与无监督学习相结合的一种学习方法。同时利用已标记和未标记样本,通过挖掘未标记样本中所蕴含的各个待分类类型在特征空间中的固有结构,从而对训练样本拟合的分类器进行校正,减少因为训练样本代表性不好对分类器拟合造成的偏差。在实际问题中,有标记的样本是有限的,大量的未标记样本存在于样本集中。为了让大量的未标记样本帮助提高分类器性能,近年来涌现了许多半监督学习算法,半监督支持向量机(Semi-supervisedSupportVectorMachine)就是其中一个重要的分支,将未标记样本的分布信息引入到了支持向量机SVM的学习中。结合未标记样本的半监督SVM方法的性能较单独使用训练样本有了显著提高。半监督SVM的目标函数是一个难以计算的混合整数规划问题,于是产生了许多求解方法。代表性的方法有直推式支持向量机TSVM,拉普拉斯支持向量机LapSVM,S4VMs等,其中LapSVM主要是通过图的拉普拉斯矩阵来探索数据的流形结构。TSVM算法在分类之前需要人为设定测试样本集中的正、负样本比例,通常情况下,这个先验知识无法提供也很难估计,应用中常用的做法是用训练样本集中的正、负样本比例估计测试样本集中的正、负样本比例。S4VMs算法经过多次迭代搜索到多个大间隔的决策面,在不断固定当前分类器决策面参数{w,b},更新测试样本集标签的过程中,需要设定与决策面距离较近的前P%的样本为正类,其他样本为负类。其中P%无法预先确定,需要人为设定或按照训练样本集中样本分布来估计。上述这两种方法均依赖于样本的分布情况,如果样本分布估计有误,分类器的性能就会急剧下降。
技术实现思路
本专利技术的目的在于针对上述已有方法的不足,提出一种基于半监督SVM集成学习的分类方法,以减少由于对数据分布估计不准确带来的误分,提高集成学习的分类正确率和鲁棒性。为实现上述目的,本专利技术的技术方案包括如下步骤:(1)分别对初始训练样本集和测试样本集进行归一化处理,得到归一化后的训练样本集和测试样本集其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,Xj表示初始测试样本集中的第j个样本,xi表示归一化后训练样本集中的第i个样本,yi表示归一化后训练样本xi的标签,xj表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;(2)构造差异性较大的基分类器:(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;(2b)设测试样本集中的初始正、负样本比率为:并按照更新测试样本集中的正、负样本比率β,其中numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,其取值为任意正整数;(2c)随机初始化一组训练样本集和测试样本集根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集及其T个分类结果其中表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本的标签,t=1,2,…,T;(3)使用k-means算法对T个分类器和测试样本集的T个分类结果进行聚类,得到N个分类器和测试样本集的N个分类结果其中N取值为任意小于T的正整数,表示聚类后第n个分类结果中测试样本的标签,n=1,2,…,N;(4)依次输入训练样本集测试样本集测试样本集的N个分类结果通过集成学习获得测试样本集的最终分类结果(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif;(4b)根据欧式距离,找出第j个测试样本在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k;(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本进行聚类,得到相似集S和相反集D;(4d)依次对第j个测试样本的N个分类结果计算邓恩指标DIj(n),n=1,2,…,N;(4e)对上述邓恩指标DIj(n)进行降序排列,并从前个邓恩指标DIj(n)对应的第j个测试样本中,取出个分类结果的标签作为第j个测试样本的标签集M;(4f)对标签集M中的标签求和,构造标签的和的符号函数根据该符号函数的值判定第j个测试样本的最终标签其中表示标签集M中第m个标签,m=1,2,…,M:若标签的和大于零,则符号函数的值为+1,得到第j个测试样本的最终标签为+1;若标签的和小于零,则符号函数的值为-1,得到第j个测试样本的最终标签为-1;若标签的和等于零,则符号函数的值为0,得到第j个测试样本的最终标签为邓恩指标DIj(n)最大值对应的第j个测试样本的标签即(4g)重复步骤(4a)至(4f),得到测试样本集中所有测试样本的最终分类结果本专利技术与现有的技术相比具有以下优点:1、本专利技术由于对正、负样本比率β进行更新,通过局部搜索算法获得具有差异性的基分类器,解决了传统SVM中构造差异性较大的基分类器较难的问题,弥补了半监督SVM算法需要预先估计正、负样本比例的缺陷。2、本专利技术由于采用集成学习的分类方法,保留了更多的测试样本正确分类信息,并结合邓恩指标的评价准则,改善了传统方法分类正确率较低和鲁棒性较差的问题。附图说明图1是本专利技术的实现流程图;图2是本专利技术和现有方法在不同正、负样本比率下的平均分类正确率对比图。具体实施方式以下结合附图对本专利技术的实施例和效果作进一步详细描述:参照图1,本专利技术的实施步骤如下:步骤1,分别对初始训练样本集和测试样本集进行归一化处理。首先,根据使用需要选取表1中的8组数据,在每组数据中随机选取10个样本组成初始训练样本集,其余样本组成初始测试样本集;其次,按如下步骤归一化初始训练样本集和测试样本集其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,l表示训练样本的个数,Xj表示初始测试样本集中的第j个样本,u表示测试样本的个数:(1a)计算初始训练样本集和测试样本集中所有样本的平均值(1b)分别对初始训练样本集和测试样本集中的样本进行归一化,得到归一化后的训练样本xi及其标签yi和测试样本xj:yi=Yi2)其中,max(X)表示初始训练样本集和测试样本集中所有样本的最大值,min(X)表示初始训练样本集和测试样本集中所有样本的最小值,yi表示归一化后的训练样本xi的标签;(1c)用所有归一化后的训练样本xi及其标签yi构成归一化后的训练样本集用所有归一化后的测试样本xj构成归一化后的测试样本集步骤2,构造差异性较大的基分类器。(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;(2b本文档来自技高网
...
基于半监督SVM集成学习的分类方法

【技术保护点】
一种基于半监督SVM集成学习的分类方法,包括如下步骤:(1)分别对初始训练样本集和测试样本集进行归一化处理,得到归一化后的训练样本集和测试样本集其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,Xj表示初始测试样本集中的第j个样本,xi表示归一化后训练样本集中的第i个样本,yi表示归一化后训练样本xi的标签,xj表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;(2)构造差异性较大的基分类器:(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用‑1表示;(2b)设测试样本集中的初始正、负样本比率为:并按照更新测试样本集中的正、负样本比率β,其中numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,其取值为任意正整数;(2c)随机初始化一组训练样本集和测试样本集根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集及其T个分类结果其中表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本的标签,t=1,2,…,T;(3)使用k‑means算法对T个分类器和测试样本集的T个分类结果进行聚类,得到N个分类器和测试样本集的N个分类结果其中N取值为任意小于T的正整数,表示聚类后第n个分类结果中测试样本的标签,n=1,2,…,N;(4)依次输入训练样本集测试样本集测试样本集的N个分类结果通过集成学习获得测试样本集的最终分类结果(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif;(4b)根据欧式距离,找出第j个测试样本在一致集Xsame和非一致集Xdif中的K近邻集合Xsame‑k和Xdif‑k;(4c)将K近邻集合Xsame‑k、Xdif‑k分别与训练样本进行聚类,得到相似集S和相反集D;(4d)依次对第j个测试样本的N个分类结果计算邓恩指标DIj(n),n=1,2,…,N;(4e)对上述邓恩指标DIj(n)进行降序排列,并从前个邓恩指标DIj(n)对应的第j个测试样本中,取出个分类结果的标签作为第j个测试样本的标签集M;(4f)对标签集M中的标签求和,构造标签的和的符号函数根据该符号函数的值判定第j个测试样本的最终标签其中表示标签集M中第m个标签,m=1,2,…,M:若标签的和大于零,则符号函数的值为+1,得到第j个测试样本的最终标签为+1;若标签的和小于零,则符号函数的值为‑1,得到第j个测试样本的最终标签为‑1;若标签的和等于零,则符号函数的值为0,得到第j个测试样本的最终标签为邓恩指标DIj(n)最大值对应的第j个测试样本的标签即yjfinal=yjmax;]]>(4g)重复步骤(4a)至(4f),得到测试样本集中所有测试样本的最终分类结果{yjfinal}j=1u.]]>...

【技术特征摘要】
1.一种基于半监督SVM集成学习的分类方法,包括如下步骤:(1)分别对初始训练样本集和测试样本集进行归一化处理,得到归一化后的训练样本集和测试样本集其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,Xj表示初始测试样本集中的第j个样本,xi表示归一化后训练样本集中的第i个样本,yi表示归一化后训练样本xi的标签,xj表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;(2)构造差异性基分类器:(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;(2b)设测试样本集中的初始正、负样本比率为:并按照更新测试样本集中的正、负样本比率β,其中numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,其取值为任意正整数;(2c)随机初始化一组训练样本集和测试样本集根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集及其T个分类结果其中表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本的标签,t=1,2,…,T…,T;(3)使用k-means算法对T个分类器和测试样本集的T个分类结果进行聚类,得到N个分类器和测试样本集的N个分类结果其中N取值为任意小于T的正整数,表示聚类后第n个分类结果中测试样本的标签,n=1,2,…,N…,N;(4)依次输入训练样本集测试样本集测试样本集的N个分类结果通过集成学习获得测试样本集的最终分类结果(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif;(4b)根据欧式距离,找出第j个测试样本在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k;(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本进行聚类,得到相似集S和相反集D;(4d)依次对第j个测试样本的N个分类结果计算邓恩指标DIj(n),n=1,2,…,N…,N;(4e)对上述邓恩指标DIj(n)进行降序排列,并从前个邓恩指标DIj(n)对应的第j个测试样本中,取出个分类结果的标签作为第j个测试样本的标签集M;(4f)对标签集M中的标签求和,构造标签的和的符号函数根据该符号函数的值判定第j个测试样本的最终标签其中表示标签集M中第m个标签,m=1,2,…,M…,M:若标签的和大于零,则符号函数的值为+1,得到第j个测试样本的最终标签为+1;若标签的和小于零,则符号函数的值为-1,得到第j个测试样本的最终标签为-1;若标签的和等于零,则符号函数的值为0,得到第j个测试样本的最终标签为邓恩指标DIj(n)最大值对应的第j个测试样本的标签即(4g)重复步骤(4a)至(4f),得到测试样本集中所有测试样本的最终分类结果2.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中步骤(1)所述的分别对初始训练样本集和测试样本集进行归一化处理,得到归一化后的训练样本集和测试样本集按如下步骤进行:(1a)计算初始训练样本集和测试样本集中所有样本的平均值(1b)分别对初始训练样本集和测试样本集中的样本进行归一化,得到归一化后的训练样本xi及其标签yi和测试样本xj:yi=Yi2)其中,max(X)表示初始训练样本集和测试样本集中所有样本的最大值,min(X)表示初始训练样本集和测试样本集中所有样本的最小值;(1c)用所有归一化后的训练样本xi及其标签yi构成归一化后的训练样本集用所有归一化后的测试样本xj构成归一化后的测试样本集3.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中步骤(2c)所述的根据不同的β参数进行局部搜索,按如下步骤进行:(2c1)用SVM算法求解出随机初始化的训练样本集和测试样本集的超平面系数{w,b}和测试样本集的初始标签集其中w是特征空间中超平面的系数向量,b是超平面的阈值,表...

【专利技术属性】
技术研发人员:焦李成刘芳张丹王爽白雪侯彪马文萍马晶晶杨淑媛
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1