一种基于AdaBoost的支持向量机集成学习方法技术

技术编号:20589706 阅读:23 留言:0更新日期:2019-03-16 07:24
本发明专利技术涉及一种基于AdaBoost的支持向量机集成学习方法。针对现有支持向量机学习方法在处理类不平衡分类问题时存在精度偏低的不足,提供了一种基于AdaBoost的支持向量机集成学习方法,使用加权支持向量机(W‑SVM)构建弱分类器,并基于AdaBoost算法框架将弱分类器集成为强分类器。该方法能够深入挖掘样本分布信息,进而显著提升预测精度,是处理类不平衡问题的有效工具。

【技术实现步骤摘要】
一种基于AdaBoost的支持向量机集成学习方法
本专利技术属于数据挖掘与机器学习领域,涉及数据挖掘和数据处理方法,具体地说,涉及一种基于AdaBoost的支持向量机集成学习方法。
技术介绍
支持向量机是在结构风险最小化原则基础上建立的典型核学习模型,是最为常用的一种监督学习算法,其基本思想是通过非线性映射把训练数据映射到一个高维Hilbert特征空间中。随后,在Hilbert空间构建最大间隔分类超平面并执行线性分类。然而,训练单个支持向量机得到的分类器,在处理复杂问题时往往存在预测精度偏低等诸多不足之处。为了提高实际应用效果,在集成学习的基本框架下我们提出了基于AdaBoost的支持向量机集成学习方法,以深入挖掘样本的分布信息,提升模型预测精度。本专利技术支持向量机集成算法能够处理数据类不平衡下的分类问题,与经典SVM、加权SVM(W-SVM)相比,可以及时根据分类器的性能动态调整样本权重分布,进而提高预测精度。
技术实现思路
本专利技术的目的在于针对现有支持向量机学习方法在处理类不平衡分类问题时存在精度偏低的不足,提供了一种基于AdaBoost的支持向量机集成学习方法,使用W-SVM构建弱分类器,并基于AdaBoost算法框架将弱分类器集成为强分类器。该方法能够深入挖掘样本分布信息,进而显著提升预测精度。根据本专利技术一实施例,提供了一种基于AdaBoost的支持向量机集成学习方法,含有以下步骤:(一)初始化样本权重,选择W-SVM构建弱分类器,对类不平衡问题进行分类;(二)采用AdaBoost算法动态调整学习样本的权重,并根据弱分类器fk(x)的精度确定弱分类器的权重αk;(三)通过交叉验证法确定弱分类器数量T,将多个弱分类器集成为强分类器在根据本专利技术实施例的学习方法,在步骤(一)中,初始化样本权重,选择W-SVM构建弱分类器,对类不平衡问题执行二分类任务。具体步骤为:初始化样本权重在训练样本集合上选择高斯核作为模型核函数,即k(xi,xj)=exp(-‖xi-xj‖2/d),训练W-SVM模型得到决策函数:利用决策函数预测测试样本x的标签:y=sign(fk(x))(1)在根据本专利技术实施例的学习方法,在步骤(二)中,采用AdaBoost算法动态调整学习样本的权重wk,i,并根据分类精度确定弱分类器的权重αk。具体步骤为:计算第k个弱分类器fk(x)在训练集上的加权误差率为即fk(x)在训练数据集上的误差率ek就是被fk(x)误分样本的加权求和。计算该弱分类器fk(x)在集成分类器中的权重:更新训练样本权重,学习第k+1个弱分类器时的样本权重系数为:其中,为归一化因子。在根据本专利技术实施例的学习方法,在步骤(三)中,将多个弱分类器集成为强分类器的具体步骤为:根据集成策略,AdaBoost采用的是加权平均法,按照权重αk组合各个弱分类器,得到通过符号函数sign的作用,得到强分类器其中T为迭代次数,通过交叉验证法确定。本专利技术涉及一种基于AdaBoost的支持向量机集成学习方法。基于AdaBoost算法框架,该方法可实现样本权重的动态调整,进而深入挖掘样本分布信息。通过引入W-SVM模型构建弱分类器实现对类不平衡问题的分类。最后,通过集成策略将多个W-SVM弱分类器集成为强分类器,提升了预测模型的分类精度。附图说明附图1为本专利技术实施例中基于AdaBoost的支持向量机集成学习方法示意图。附图2为本专利技术实施例中高炉炉温[Si]和风量时间序列图。附图3为本专利技术实施例中正常炉况和异常炉况样本分布示意图。具体实施方式以下结合附图对本专利技术具体步骤进行解释说明。实施例一:以莱钢1#高炉(BF(a))和包钢7#高炉(BF(b))的高炉炉温([Si])状态预报问题为例。图2给出了高炉炉温[Si]以及高炉风量的时间序列。由图2可知[Si]和风量在尺度上有显著性差异。大尺度变量将掩盖小尺度变量对模型产生的影响,进而严重影响模型的预测精度。为此,首先采用公式对采样数据进行归一化处理,使得输入变量均处于相同尺度。确定训练样本集合和测试样本集合,在训练样本集上通过K均值算法对炉温[Si]进行聚类分析,将炉温[Si]分为低温、高温和正常三种状态。低温和高温状态合并为异常状态。因此,炉温[Si]分为两大类,即正常状态和异常状态。图3显示了K均值聚类算法输出的BF(a)与BF(b)的正态和异常状态样本分布,正常与异常状态的样本数量之比约为4:1,是典型的类别不平衡分类问题。本专利技术提供的一种基于AdaBoost的支持向量机集成学习方法含有以下步骤:步骤一:初始化样本权重选择W-SVM构建弱分类器,对上述类不平衡问题执行分类任务。在训练样本集合上选择高斯核作为模型核函数,即k(xi,xj)=exp(-‖xi-xj‖2/d),训练W-SVM模型得到决策函数利用决策函数预测测试样本x的标签:y=sign(fk(x))(1)步骤二:采用AdaBoost算法动态调整学习样本的权重wk,i,并根据弱分类器fk(x)的精度确定弱分类器的权重αk。计算第k个弱分类器fk(x)在训练集上的加权误差率为即fk(x)在训练数据集上的误差率ek就是被fk(x)误分样本的加权求和。计算该弱分类器fk(x)在集成分类器中所占的权重:更新训练样本权重,学习第k+1个弱分类器时的样本权重系数为:其中,为归一化因子。步骤三:将多个弱分类器集成为强分类器。根据集成策略,AdaBoost采用的是加权平均法,按照权重αk组合各个弱分类器,得通过符号函数sign的作用,得到强分类器其中T为迭代次数,采用5折交叉验证法确定BF(a)的迭代次数T为14,BF(a)的迭代次数T为7。在测试集上比较集成学习分类器(AdaBoostSVM)公式(6)与SVM、W-SVM的分类效果,见表1。表1.高炉炉温[Si]状态分类结果上述实施例用来解释本专利技术,而不是对本专利技术进行限制,在本专利技术的精神和权利要求的保护范围内,对本专利技术做出的任何修改和改变,都落入本专利技术的保护范围。本文档来自技高网...

【技术保护点】
1.一种基于AdaBoost的支持向量机集成学习方法,其特征在于:含有以下步骤:(一)初始化样本权重,选择加权SVM(W‑SVM)构建弱分类器,对类不平衡问题进行分类;(二)采用AdaBoost算法动态调整学习样本的权重,并根据弱分类器fk(x)的精度确定弱分类器的权重αk;(三)通过交叉验证法确定弱分类器数量T,并将T个弱分类器集成为强分类器

【技术特征摘要】
1.一种基于AdaBoost的支持向量机集成学习方法,其特征在于:含有以下步骤:(一)初始化样本权重,选择加权SVM(W-SVM)构建弱分类器,对类不平衡问题进行分类;(二)采用AdaBoost算法动态调整学习样本的权重,并根据弱分类器fk(x)的精度确定弱分类器的权重αk;(三)通过交叉验证法确定弱分类器数量T,并将T个弱分类器集成为强分类器2.根据权利要求1所述的一种基于AdaBoost的支持向量机集成学习方法,其特征在于:在步骤(一)中,初始化样本权重,选择W-SVM构建弱分类器,对类不平衡问题执行二分类任务。具体步骤为:初始化样本权重在训练样本集合上选择高斯核作为模型核函数,即k(xi,xj)=exp(-‖xi-xj‖2/d),训练W-SVM模型得到决策函数:利用决策函数预测测试样本x的标签:y=sign(fk(x))(1)3.根据权利要求1所述的一种基于AdaBoost的支持向量机集成学习方法,其特征在于:步骤(二)中,采用AdaBoost算法动态调整学习样本的权重wk,i...

【专利技术属性】
技术研发人员:陈宏义雷鹤杰梁锡军渐令
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1