一种用于在线学习的样本集训练方法技术

技术编号：10162483 阅读：176 留言：1更新日期：2014-07-01 18:10

本发明专利技术公开了一种用于在线学习的样本集训练方法。该方法将初始样本集划分成若干个样本子集，再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集，先求取壳向量集，并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件，则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本发明专利技术在样本集上引入了一定的随机性，从而间接地提高了支持向量机的多样性，使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷，起到支持在线学习的目的。同时在不影响分类精度的情况下，还能大幅减少支持向量机的训练时间。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了。该方法将初始样本集划分成若干个样本子集，再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集，先求取壳向量集，并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件，则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本专利技术在样本集上引入了一定的随机性，从而间接地提高了支持向量机的多样性，使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷，起到支持在线学习的目的。同时在不影响分类精度的情况下，还能大幅减少支持向量机的训练时间。【专利说明】
本专利技术属于在线学习
，涉及。
技术介绍
在互联网领域，数据集是随着时间的推移不断产生的，所以在完整的数据集上进行机器学习是个几乎不可能的事情，这就需要学习器能够不断地进行学习，而传统的机器学习方法已经无法满足这一要求，在线学习就是针对上述情况应运而生的。支持向量机作为机器学习领域的一个重要研究分支，因为自身完善的数学理论和良好的实际应用效果，目前在很多领域都获得了应用。但传统的支持向量机属于性能稳定的分类器，有“灾难性遗忘”缺陷，所以是无法进行在线学习的。本专利技术针对支持向量机的上述缺陷，提出了新的方法，使支持向量机不仅能支持在线学习，而且还可有效减少支持向量机的训练时间。
技术实现思路
本专利技术的目的是针对现有技术的不足，提供，使支持向量机能克服自身缺陷，从而更好地应用于在线学习领域。本专利技术为解决上述技术问题所采用的技术方案如下:步骤(1)准备一个初始样本集S，并将其分成K个样本子集...

【技术保护点】
一种用于在线学习的样本集训练方法，其特征在于该方法包括以下步骤：步骤(1)准备一个初始样本集S，并将其分成K个样本子集Sk，其中k=1,2,…,K；每个样本子集Sk有m个样本(xi,yi)，i=1,2,…,m，并且都需要进行Tk次迭代；步骤(2)针对每个样本子集Sk，按照下列步骤依次进行Tk次迭代：步骤(2.1)对样本子集Sk的样本权值进行初始化，其中权值w1(i)＝D1(i)＝1/m；步骤(2.2)设t的初始值为1，执行完下列步骤后t值自加一，直至t值大于Tk；步骤(2.2.1)对样本权值wt进行归一化，建立分布步骤(2.2.2)根据分布Dt随机选择训练集TRt和测试集TEt；利用Qhull算法求取训练集TRt的壳向量集其中并将其作为新的训练集；步骤(2.2.3)在训练集上训练支持向量机，得到支持向量机ht:X→Y；步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率：ϵt=Σi:ht(xi)≠yiDi(i)onTRt+TEt;]]>如果εt＞1/2，则令t=t‑1，删除支持向量机ht，跳转到步骤(2.2.2)；否则计算...

【技术特征摘要】

【专利技术属性】
技术研发人员：沈海斌，卞桂龙，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人