【技术实现步骤摘要】
一种使用Boosting训练集成SVM的方法、装置、终端及存储介质
本专利技术涉及支持向量机
,具体的说是一种使用Boosting训练集成SVM的方法、装置、终端及存储介质。
技术介绍
如今,机器学习算法被广泛使用在诸多应用场景中,例如手写识别,人脸识别等。其中一种算法就是支持向量机(SupportVectorMachine,SVM)。支持向量机(SupportVectorMachine,SVM)是CorinnaCortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM像其它如决策树和神经网络等算法一样,需要通过训练得出算法的参数来应用于对其它数据的分类。然而,当数据量变得很大时,训练SVM会变得很困难,因为训练过程会变得过慢且需要占用大量的内存。换句话说,训练SVM的方法并不适合应用于大的训练集,而这正是要达到较高的分类准确性所需要的。Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数Boosting思想。Boosting的基本思想是1)先赋予每个训练样本相同的概率,2)然后进行T次迭代,每次迭代后,对分类错误的样本加大权重(重采样),使得在下一次的迭代中更加关注这些样本。
技术实现思路
本专利技术针对大规模的训练数据集上训练SVM耗费时间长、需要内存大的问题,提供一种使用Boos ...
【技术保护点】
1.一种使用Boosting训练集成SVM的方法,其特征在于,该方法使用Boosting,对训练数据集包含的多个训练子集进行依次取样,利用标准形式的SVM进行多次迭代,以对分类错误的样本加大权重,同时完成标准SVM中参数W和B的更新,在权重达到设定阈值,标准SVM基于训练数据集包含的多个训练子集进行多次迭代后,得到具有更新参数W和B的集成SVM。/n
【技术特征摘要】
1.一种使用Boosting训练集成SVM的方法,其特征在于,该方法使用Boosting,对训练数据集包含的多个训练子集进行依次取样,利用标准形式的SVM进行多次迭代,以对分类错误的样本加大权重,同时完成标准SVM中参数W和B的更新,在权重达到设定阈值,标准SVM基于训练数据集包含的多个训练子集进行多次迭代后,得到具有更新参数W和B的集成SVM。
2.根据权利要求1所述的一种使用Boosting训练集成SVM的方法,其特征在于,该方法的实现流程包括:
步骤S10、获取训练数据集D,将训练数据集D随机均分为多个训练子集,每个训练子集的大小为M;
步骤S20、用均匀分布初始化一个长度为N的概率向量P,同时,初始化迭代次数iter,初始化标准形式的SVM所包含的参数W和B,使迭代次数iter、参数W和B三者均等于0;
步骤S30、按照逐次加1的方式更新迭代次数iter;
步骤S40、从训练数据集D中取样大小为M的训练子集,并获取所取样训练子集在训练数据集D中的索引S;
步骤S50、针对所取样的训练子集,利用标准形式的SVM计算本次迭代过程的参数Wi和Bi;
步骤S60、基于训练数据集D、训练子集的大小M、训练子集在训练数据集D中的索引S、概率向量P,以及本次迭代得到的参数Wi和Bi,计算本次迭代过程的权重αi;
步骤S70、以W=Wi+αiWi,B=Bi+αiBi的方式更新标准SVM中的参数W和B;
步骤S80、使用参数W和B对所取样训练子集进行分类,根据分类结果更新概率向量P;
步骤S90、判断步骤S60计算得到的权重αi是否小于设定数值0.5,若是,则返回步骤S30继续迭代,若否,则输出W和B,该W和B为集成SVM的参数。
3.根据权利要求2所述的一种使用Boosting训练集成SVM的方法,其特征在于,步骤S10中获取的训练数据集D包含N个d维向量xj,还包含与d维向量xj相对应的标签yj;
N个d维向量xj随机均分到多个训练子集中,P[j]表示d维向量xj从训练数据集D中被取样的概率,其中,j表示取值范围内的任意一个自然数。
4.根据权利要求3所述的一种使用Boosting训练集成SVM的方法,其特征在于,步骤S40中,从训练数据集D中取样大小为M的训练子集后,根据d维向量xj的对应标签yj获取所取样训练子集在训练数据集D中的索引S。
5.根据权利要求4所述的一种使用Boosting训练集成SVM的方法,其特征在于,步骤S40获取所取样训练子集在训练数据集D中的索引S,其具体操作包括:
步骤S41、获取训练数据集D、概率向量P,从训练数据集D中取样一个训练子集,该训练子集的大小为M;
步骤S42、将索引S初始化为空向量,同时,初始化索引S的长度m为0;
步骤S43、判断m是否小于M,若否,则直接返回索引S,若是,则执行步骤S44;
步骤S44、在[0,1]中根据均匀分布随机取一个实数R;
步骤S45、使用Pi找到取样的索引;
步骤S46、判断取样的索引是否已在S,若是,则返回执行步骤S43,若否,则继续执行步骤S47;
步骤S47、添加取样的索引到S,增加本次迭代过程中错误归类数据点出现在S中的概率,按照加1的方式更新S的长度m,随后,返回执行步骤S43。
6.根据权利要求5所述的一种使用Boosting训练集成S...
【专利技术属性】
技术研发人员:苑晓龙,张峻旗,刘牧,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。