当前位置: 首页 > 专利查询>浙江大学专利>正文

一种用于在线学习的样本集训练方法技术

技术编号:10162483 阅读:175 留言:1更新日期:2014-07-01 18:10
本发明专利技术公开了一种用于在线学习的样本集训练方法。该方法将初始样本集划分成若干个样本子集,再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集,先求取壳向量集,并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件,则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本发明专利技术在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了。该方法将初始样本集划分成若干个样本子集,再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集,先求取壳向量集,并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件,则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本专利技术在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。【专利说明】
本专利技术属于在线学习
,涉及。
技术介绍
在互联网领域,数据集是随着时间的推移不断产生的,所以在完整的数据集上进行机器学习是个几乎不可能的事情,这就需要学习器能够不断地进行学习,而传统的机器学习方法已经无法满足这一要求,在线学习就是针对上述情况应运而生的。支持向量机作为机器学习领域的一个重要研究分支,因为自身完善的数学理论和良好的实际应用效果,目前在很多领域都获得了应用。但传统的支持向量机属于性能稳定的分类器,有“灾难性遗忘”缺陷,所以是无法进行在线学习的。本专利技术针对支持向量机的上述缺陷,提出了新的方法,使支持向量机不仅能支持在线学习,而且还可有效减少支持向量机的训练时间。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供,使支持向量机能克服自身缺陷,从而更好地应用于在线学习领域。本专利技术为解决上述技术问题所采用的技术方案如下:步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=l,2,…,K。每个样本子集Sk有m个样本(Xi, Yi),i=l, 2,…,m,并且都需要进行Tk次迭代。步骤⑵针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值W1 (i) = D1 (i) = I/m0步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk。 步骤(2.2.1)对样本权值Wt进行归一化,建立分布马【权利要求】1.,其特征在于该方法包括以下步骤: 步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=l,2,…,K ;每个样本子集Sk有m个样本(Xi,Yi),i=l, 2,…,m,并且都需要进行Tk次迭代; 步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代: 步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值W1Q) = D1(I) = Ι/m ; 步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk ; 步骤(2.2.1)对样本权值Wt进行归一化,建立分布 【文档编号】G06K9/66GK103886340SQ201410069210【公开日】2014年6月25日 申请日期:2014年2月27日 优先权日:2014年2月27日 【专利技术者】沈海斌, 卞桂龙 申请人:浙江大学本文档来自技高网...

【技术保护点】
一种用于在线学习的样本集训练方法,其特征在于该方法包括以下步骤:步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K;每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代;步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m;步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk;步骤(2.2.1)对样本权值wt进行归一化,建立分布步骤(2.2.2)根据分布Dt随机选择训练集TRt和测试集TEt;利用Qhull算法求取训练集TRt的壳向量集其中并将其作为新的训练集;步骤(2.2.3)在训练集上训练支持向量机,得到支持向量机ht:X→Y;步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:ϵt=Σi:ht(xi)≠yiDi(i)onTRt+TEt;]]>如果εt>1/2,则令t=t‑1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1‑εt);步骤(2.2.5)通过权重投票方式产生集成的支持向量机Ht:Ht=argmaxy∈YΣt:ht(x)=ylog(1/βt);]]>并计算集成误差Et=Σi:Ht(xi)≠yiDt(i)=Σi=1mDt(i)[|Ht(xi)≠yi|];]]>如果Et>1/2,删除此集成的支持向量机Ht,并令t=t‑1,跳转到步骤(2.2.2);步骤(2.2.6)设集成正规化错误率Bt=Et/(1‑Et),修改样本子集中样本的权值:步骤(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:Hfinal=argmaxy∈YΣk=1KΣt:Ht(x)=ylog(1βt).]]>...

【技术特征摘要】

【专利技术属性】
技术研发人员:沈海斌卞桂龙
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有1条评论
  • 来自[山东省济宁市移动] 2015年01月26日 17:21
    才调集,唐诗选集。此书是今存唐人选唐诗中选诗最多最广的一种。所选署名诗人180多人,自初唐沈佺期至唐末五代的罗隐等,广涉僧人妇女及无名氏。
    0
1