一种支持向量回归机的训练方法技术

技术编号:6533038 阅读:373 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一种支持向量回归机的训练方法,具体包括:步骤一:设定训练样本集合;步骤二:计算核函数矩阵并初始化;步骤三:计算第一个训练点;步骤四:计算第二个训练点;步骤五:解析拉格朗日乘子;步骤六:更新中间变量;步骤七:判断训练样本集的所有样本是否满足最优条件:步骤八:计算回归决策函数。本发明专利技术中中间变量的更新利用了前一次训练的值,减少计算量;且在求目标函数的偏导以及目标函数下降值中,充分利用中间变量,从而减少了大量的计算,实现了快速选取训练点,提高训练的收敛速度。

【技术实现步骤摘要】

本专利技术属于人工智能、机器学习和数据挖掘领域,具体涉及,可广泛应用于非线性回归、时间序列分析等领域。
技术介绍
支持向量机(Support Vector Machines, SVM)理论源于Vapnik提出的用于解决模式识别问题的支持向量方法,之后Vapnik在提出损失函数的基础上建立支持向量回归机。SVM是基于结构风险最小化原则构建的,具有很强的学习能力和泛化性能,能够较好地解决小样本、高维数、非线性、局部极小等问题,广泛应用于模式分类和非线性回归。SVM最终归结为求解一个二次规划(QP,Quadratic Programming)问题。如果直接求解,当训练点的数量比较大时,就会造成占据的存储空间过大,致使训练的速度降低。因此常用的方法就是将问题进行分解,如选块算法、分解算法和序列最小最优化算法 (sequentialminimal optimization, SM0)算法等。其中SMO算法将优化问题分解到最小, 在每次迭代过程中只需要对两个拉格朗日乘子的最优化问题进行解析求解,没有矩阵运算,容易实现,是目前应用最为广泛的算法。参考文献Gary. W. F, Steve. L. Efficient SVM Regression Training with SMO[J]. MachineLearning, 2002 (46) :271-290 中详细介绍了 ε -支持向量回归机应用 SMO 方法求解过程中子优化问题的求解,即两个拉格朗日乘子的解析求解方法。但SMO方法中两个训练点的选取直接影响算法的精度以及收敛速度,目前没有统一的原则来确定如何选取两个训练点的方法。通常SMO方法中通过2步来实现训练点的选取首先,从选择违反KKT条件最严重的点为第一个训练点;其次根据解的步进最大化原则来选取第二个训练点。这种选取训练点的方法主要不足有没有确定的原则来判断违反KKT条件的严重程度, 只能通过计算搜索合适的训练点;另外该方法在选择第二个训练点时只考虑解的进展,但是求解的最终的目的是使得目标函数达到最小,因此该选择方法意义不明确,很可能造成在训练过程中目标函数会增大。
技术实现思路
针对现有技术中SMO方法求解支持向量机回归问题时训练过程中两个训练点的选取的不足,本专利技术提出,该方法从直接逼近目标函数的角度出发,物理意义明确,并充分利用中间变量,计算简单,运算效率高。,其特征在于具体包括以下几个步骤步骤一设定训练样本集合设定训练样本集合为T = ^5,1)1:,输入空间的特征属性、e Rn,铲为输入空间,η为输入空间的维数,输出空间的值yp e R,R为输出空间;(Xp,yp)表示第P个样本点, 1为训练样本集合中样本的总数,设定不敏感损失因子ε和惩罚因子C;步骤二 计算核函数矩阵K并进行初始化计算核函数矩阵K,kpq = K (xp, xq),kpq表示第ρ个样本点\和第q个样本点Xq的核函数积;初始化拉格朗日乘子向量λ = (λ^ λ2,...,λρ,...,λ) =0,决策函数偏置 b = 0,决策函数向量f = (f1; f2,. . .,fp,. . .,= 0 ;其中λ p表示决策函数中第ρ个样本点\对应的拉格朗日乘子,b表示决策函数的偏置,fp表示第ρ个样本点\对应的决策函数值;步骤三对目标函数W求偏导,取使偏导数绝对值最大的分量下标作为第一个训练点;本文档来自技高网
...

【技术保护点】
1.一种支持向量回归机的训练方法,其特征在于:具体包括以下几个步骤:步骤一:设定训练样本集合:设定训练样本集合为输入空间的特征属性xp∈Rn,Rn为输入空间,n为输入空间的维数,输出空间的值yp∈R,R为输出空间;(xp,yp)表示第p个样本点,l为训练样本集合中样本的总数,设定不敏感损失因子ε和惩罚因子C;步骤二:计算核函数矩阵K并进行初始化:计算核函数矩阵K,kpq=K(xp,xq),kpq表示第p个样本点xp和第q个样本点xq的核函数积;初始化拉格朗日乘子向量λ=(λ1,λ2,...,λp,...,λl)=0,决策函数偏置b=0,决策函数向量f=(f1,f2,...,fp,...,fl)=0;其中λp表示决策函数中第p个样本点xp对应的拉格朗日乘子,b表示决策函数的偏置,fp表示第p个样本点xp对应的决策函数值;步骤三:对目标函数W求偏导,取使偏导数绝对值最大的分量下标作为第一个训练点;3.1:对目标函数的拉格朗日乘子(λ1,λ2,...,λp,...,λl)求偏导数并取绝对值,得到W′=(|W′1|,|W′2|,...,|W′p|,...,|W′l|),其中表示目标函数的第p个拉格朗日乘子的偏导数,λp表示决策函数中第p个样本点xp对应的拉格朗日乘子,fp表示第p个样本点xp对应的决策函数值,yp表示第p个样本点输出空间的值,ε为不敏感损失因子,b表示决策函数的偏置;对目标函数求偏导并取绝对值后得到的|W′1|,|W′2|,...,|W′p|,...,|W′l|按大小降序排列,其中表示降序排列后目标函数的第Ik个拉格朗日乘子的偏导数绝对值,|W′p|表示目标函数的第p个拉格朗日乘子的偏导数的绝对值,I1,I2,...,Ij,...,Il表示的下标;初始化第一个训练点的迭代次数为1;3.2:判断目标函数求偏导取绝对值后降序排列的中下标为Iindex_i的样本是否满足最优条件:判断下标为Iindex_i的样本是否满足KKT条件,若满足KKT条件,则进入步骤3.3,若不满足KKT条件,则得到第一个训练点,下标为i=Iindex_i,进入步骤四;3.3:判断寻找第一个训练点的迭代次数否到达训练样本集合总数l,若迭代次数达到样本总数l,则训练样本集合中所有样本点满足KKT条件,则进入步骤八,否则迭代次数增加1,返回步骤3.2;步骤四:取使得目标函数值下降最大的下标分量作为第二个训练点:4.1:根据步骤三得到的第一个训练点的下标i,依次对下标分别为i和v(v=1,2,...,l)的样本对应的两个拉格朗日乘子λi和λv进行解析求解,得到两个新的拉格朗日乘子和计算新的目标函数Wiv为(math)??(mrow)?(msup)?(mi)W(/mi)?(mi)iv(/mi)?(/msup)?(mo)=(/mo)?(mfrac)?(mn)1(/mn)?(mn)2(/mn)?(/mfrac)?(munderover)?(munder)?(mi)Σ(/mi)?(mrow)?(mi)p(/mi)?(mo)=(/mo)?(mn)1(/mn)?(/mrow)?(/munder)?(mrow)?(mi)p(/mi)?(mo)≠(/mo)?(mi)i(/mi)?(mo),(/mo)?(mi)v(/mi)?(/mrow)?(mi)l(/mi)?(/munderover)?(munderover)?(munder)?(mi)Σ(/mi)?(mrow)?(mi)q(/mi)?(mo)=(/mo)?(mn)1(/mn)?(/mrow)?(/munder)?(mrow)?(mi)q(/mi)?(mo)≠(/mo)?(mi)i(/mi)?(mo),(/mo)?(mi)v(/mi)?(/mrow)?(mi)l(/mi)?(/munderover)?(msub)?(mi)λ(/mi)?(mi)p(/mi)?(/msub)?(msub)?(mi)λ(/mi)?(mi)q(/mi)?(/msub)?(msub)?(mi)k(/mi)?(mi)pq(/mi)?(/msub)?(mo)+(/mo)?(mfrac)?(mn)1(/mn)?(mn)2(/mn)?(/mfrac)?(msubsup)?(mi)λ(/mi)?(mi)i(/mi)?(mi)temp(/mi)?(/msubsup)?(munderover)?(munder)?(mi)Σ(/mi)?(mrow)?(mi)p(/mi)?(mo)=(/mo)?(mn)1(/mn)?(/mrow)?(/munder)?(mrow)?(mi)p(/mi)?(mo)≠(/mo)?(mi)i(/mi)?(m...

【技术特征摘要】
1. 一种支持向量回归机的训练方法,其特征在于具体包括以下几个步骤 步骤一设定训练样本集合设定训练样本集合为2.根据...

【专利技术属性】
技术研发人员:郎荣玲邓小乐许喆平
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1