当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于经济型CPU平台的系统的数据处理方法技术方案

技术编号:15691551 阅读:373 留言:0更新日期:2017-06-24 04:51
本发明专利技术公开了一种基于经济型CPU平台的系统的数据处理方法,该方法以已知支持向量机模型的核函数为逼近目标,基于训练集中的样本数据,采用多元多项式拟合方法,求出逼近核函数的多元多项式函数;利用该多项式函数替代核函数得到近似的支持向量机模型;其中,根据对多项式函数的精度要求与系统的存储空间等硬件资源,在保证硬件资源满足模型计算精度要求的前提下,确定替代核函数的多项式的最高阶次。本发明专利技术能有效降低支持向量机算法的复杂度,克服传统支持向量机模型用于样本分类时资源消耗大的缺点,满足无线传感器、可穿戴装置等基于经济型CPU平台的系统对使用支持向量机的需求。

A support vector machine model approximation method based on multivariate polynomial fitting and its application

The invention discloses an approximate method of support vector machine model based on polynomial fitting and application of this method to the known kernel function support vector machine model for approaching the goal, sample training data based on multivariate polynomial fitting method, polynomial approximation for kernel function; using the polynomial function instead of nuclear the approximate function of support vector machine model; which, according to the precision requirement of the polynomial function and the system hardware resources such as storage space, to ensure the hardware resources to meet the accuracy requirements under the premise of model calculation, determine the polynomial kernel function instead of the highest order. The polynomial approximation method of support vector machine model, can effectively reduce the complexity of the support vector machine algorithm, to overcome the traditional support vector machine model for classification of resource consumption big shortcomings, meet the wireless sensor, wearable devices demand system for economic use of CPU platform based on support vector machine.

【技术实现步骤摘要】
一种基于多元多项式拟合的支持向量机模型近似方法及其应用
本专利技术涉及一种基于多元多项式拟合的支持向量机模型近似方法及其应用
技术介绍
支持向量机(SupportVectorMachine,SVM)是基于统计学习理论(StatisticalLearningTheory,SLT)的一种新的机器学习算法。通常应用在模式识别、分类和回归分析等方面。核函数是支持向量机的核心组成部分,通过引入核函数,将原空间中线性不可分的数据样本映射到高维特征空间中,实现数据的线性分类,克服了传统机器学习方法存在的维数灾难和局部最小化问题。然而支持向量机的训练过程实际上是求解一个二次规划问题,其时间复杂度为O(n3),由于要存储核矩阵,其空间复杂度为O(n2)。所以当训练集规模很大时,即使一般的通用计算机也无法正常处理,因此需要对传统的支持向量机算法进行改进。于是国内外研究人员提出了一些支持向量机的简化算法。其中大部分基于分解迭代的思想,即将原始的二次规划问题分解成若干规模较小的二次规划问题,包括Vapnik等人提出的分块(Chunking)算法及Platt提出的串行最小优化(SequentialMinimalOptimation,SMO)算法。还有一些思想是通过选取部分训练集的方法来降低系统的资源需求,如由Lee和Mangasarian提出的精简支持向量机(ReducedSVM,RSVM)等。机器学习包含两个过程:训练和测试。上述的支持向量机简化方法主要针对的是降低训练过程的资源消耗,很少考虑测试过程的资源需求。在支持向量机的测试过程中,需先存储所有的支持向量及其对应的拉格朗日系数,而计算一个新输入样本数据的标签时,需计算输入样本与所有支持向量和拉格朗日系数的乘积,因此测试过程对系统的存储空间、计算资源需求也很大。近年来,无线传感器和基于无线传感器的穿戴式医疗监护系统由于其具有的便利性得到了极大的发展。在无线传感器中,无线通信能耗远高于数据采集和处理的能耗,因此无线传感器节点使用支持向量机对数据进行处理,将处理后的结果发给用户可以显著地降低系统的通信能耗。受制造成本、体积等的限制,无线传感器节点的资源有限,其计算能力和存储能力远低于通用的计算机,使得节点的资源无法满足支持向量机分类过程所需的硬件资源要求,因此不能在可穿戴装置等基于经济型CPU平台的系统上使用支持向量机模型,限制了医疗监护系统性能与技术发展。因此,有必要设计能应用于基于经济型CPU平台的系统的支持向量机模型。
技术实现思路
本专利技术所解决的技术问题是,针对现有技术的不足,提出一种基于多元多项式拟合的支持向量机模型近似方法及其应用,通过在高性能平台上训练得到传统支持向量机模型,并采用本方法得到的近似支持向量机模型进行在线预测,可以降低支持向量机对系统的资源需求,将近似模型应用到无线传感器网络等基于经济型CPU平台的系统上进行在线分类,扩大了支持向量机的应用范围。为实现上述目的,本专利技术的解决方案如下:一种基于多元多项式拟合的支持向量机模型近似方法,包括以下步骤:步骤一:给定训练数据集T={(xi,yi)|i=1,2,…,l},其中,xi是n维空间上的样本数据,yi是与xi对应的类别标签。训练数据集T中共有l个样本数据,当支持向量机应用于分类问题时,这些样本数据分属于两个类别,即有yi∈{+1,-1};选择最佳的核函数类型和参数,利用训练集中数据对支持向量机进行训练,得到传统的支持向量机模型其中,αi*和b*分别是计算得到的拉格朗日系数和偏置,xi为支持向量,yi为与xi对应的类别标签,x0为n维未知输入数据,x0=[x01,x02,…,x0n],其中,x0k为x0的第k维分量,k=1,…,n;y是模型输出的与x0对应的类别标签;。步骤二:选取步骤一中所得支持向量机模型y的所有支持向量及其拉格朗日系数,将训练数据集T中样本数据xj(j=1,2,…,l)依次代入支持向量机模型y的核函数计算,将得到的l个函数值记为数值序列F=[f(x1),f(x2),…,f(xl)]。步骤三:采用多元多项式拟合方法,利用训练数据集T中样本数据和数值序列F建立超定方程组,求解超定方程组得到多元多项式的系数α;步骤四:利用步骤三中求解得到的多元多项式系数与未知类别标签的n维输入数据x0构建多项式,替代支持向量机模型y的核函数部分,得到近似的支持向量机模型y'=sgn[X'α+b*];其中,d为多元多项式的次数,α=(α0,α11,…,α1n,…,αd1,…,αdn)T为多元多项式的系数。所述的基于多元多项式拟合的支持向量机模型近似方法,步骤一中所得的传统支持向量机模型y的训练方法如下:对训练数据集T,求解最优分类超平面(ω·x)+b=0,使得不同类别的样本数据可以分开并保证分类间隔最大。其中,ω为分类超平面的法向量,b是分类超平面的偏移量。当数据线性可分时,求解最优分类超平面的问题转化为求解如下二次规划问题:其中,<xi,xj>为两个n维数据xi和xj的内积,即<xi,xj>=xi·xj;αi为引入的拉格朗日系数,C是一个正常数,称为惩罚因子,用来权衡最大化分类间隔和最小误差;解式(3)可得到最终的决策函数,即支持向量机模型y为:其中,αi*和b*都可以通过(1)式求解;αi*为使min后的函数值最小的αi的取值,选取正的支持向量xj,则这种情况下xi与x0的内积<xi,x0>视为核函数K(xi,x0);当数据线性不可分时,支持向量机通过引入核函数K将样本数据映射到高维特征空间,然后在高维特征空间内进行分类。其最优分类超平面的求解问题转化为求解如下二次规划问题:由式(4)得到最终的决策函数,即支持向量机模型y为:其中,αi*和b*都可以通过(2)式求解。αi*为使得min后函数值最小的αi的取值,选取正的支持向量xj,则所述的基于多元多项式拟合的支持向量机模型近似方法,在步骤一中训练支持向量机时,需选择使得支持向量机性能最佳的核函数类型,选择方法如下:应用验证方法,从支持向量机中常用的支持核函数如多项式核函数K(xi,x0)=[g(xi·x0)+coef]d、径向基(RBF)核函数K(xi·x0)=exp(-g||xi-x0||2)以及Sigmoid核函数K(xi·x0)=tanh[g(xi·x0)+coef](g和coef是核函数参数)等函数中选取核函数,即将核函数分别带入进行实验找到使SVM性能最好的核函数。此外,可将样本数据线性可分视为线性不可分的一种特殊情况,即其核函数K(xi·x0)=xi·x0。所述的基于多元多项式拟合的支持向量机模型近似方法,在步骤一中训练支持向量机时,需选择使得支持向量机性能最佳的参数,参数包括核函数参数及惩罚因子C,选择方法如下:采用网格搜索(GridSearch)的参数寻优方法对核函数参数及惩罚因子C进行选择,让支持向量机参数在一定范围内取值变化,常用的参数取值范围为2^(-5)到2^(5)。对于取定的参数,利用K-CV方法得到该组参数的分类准确率,最终选择使得测试集分类准确率最高的那组参数作为模型的参数。K-CV为一种常用的交叉验证(CrossValidation,CV)方法,把原始数据均分为K个子集,(当原始数本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201710113183.html" title="一种基于经济型CPU平台的系统的数据处理方法原文来自X技术">基于经济型CPU平台的系统的数据处理方法</a>

【技术保护点】
一种基于多元多项式拟合的支持向量机模型近似方法,其特征在于,包括以下步骤:步骤一:给定训练数据集T={(x

【技术特征摘要】
1.一种基于多元多项式拟合的支持向量机模型近似方法,其特征在于,包括以下步骤:步骤一:给定训练数据集T={(xi,yi)|i=1,2,…,l},其中,l为训练数据集T中样本数据的个数,xi是n维样本数据,yi是与xi对应的类别标签,yi∈{-1,1};利用训练数据集中数据训练支持向量机,得到传统的支持向量机模型其中,αi*和b*分别是拉格朗日系数和偏置量;K(xi,x0)为核函数;x0为未知类别标签的n维输入数据,x0=[x01,x02,…,x0n],其中,x0k为x0的第k维分量,k=1,…,n;y是模型输出的与x0对应的类别标签;步骤二:将训练数据集T中的样本数据xj(j=1,2,…,l)依次代入支持向量机模型y,计算核函数部分的输出将得到的l个函数值记为数值序列F=[f(x1),f(x2),…,f(xl)];步骤三:采用多元多项式拟合方法,利用训练数据集T中样本数据和步骤二所得数值序列F建立超定方程组,求解超定方程组得到多元多项式的系数α;步骤四:利用步骤三中求解得到的多元多项式的系数α与未知类别标签的n维输入数据x0构建多项式,替代支持向量机模型y的核函数部分,得到近似的支持向量机模型y'=sgn[X'α+b*];其中,d为多元多项式的次数,α=(α0,α11,…,α1n,…,αd1,…,αdn)T为多元多项式的系数。2.根据权利要求1所述的基于多元多项式拟合的支持向量机模型近似方法,其特征在于,所述步骤一中传统的支持向量机模型y的训练方法如下:对训练数据集T,求解最优分类超平面(ω·x)+b=0,使得不同类别的样本数据分开并保证分类间隔最大;其中,ω为分类超平面的法向量,b是分类超平面的偏移量;当样本数据线性可分时,将求解最优分类超平面的问题转化为求解如下二次规划问题:其中,<xi,xj>为两个n维样本数据xi和xj的内积,即<xi,xj>=xi·xj;αi为引入的拉格朗日系数,C是一个正常数,称为惩罚因子,用来权衡最大化分类间隔和最小误差;解式(1)得到最终的决策函数,即支持向量机模型y为:其中,αi*和b*通过(1)式求解;αi*为使min后的函数值最小的αi的取值;选取正的支持向量xj,则这种情况下xi与x0的内积<xi,x0>视为核函数K(xi,x0);当样本数据线性不可分时,支持向量机通过引入核函数K将样本数据映射到高维特征空间,然后在高维特征空间内进行分类;将其最优分类超平面的求解问题转化为求解如下二次规划问题:

【专利技术属性】
技术研发人员:刘少强徐文杨胜跃樊晓平闫晓艳
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1