一种基于Spark框架的支持向量机训练方法技术

技术编号：18138996 阅读：27 留言：0更新日期：2018-06-06 12:11

本发明专利技术提供一种基于Spark框架的支持向量机训练方法，包括：获取训练样本集，将训练样本集中的所有样本向量分布式储存在Spark框架的数据节点中；从训练样本集中抽取违反KKT条件最大的样本向量V2，同时选取与样本向量V2的球心距相差最大的样本向量V1；对样本向量V1和V2进行迭代优化计算，获得更新后的样本向量V1

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark框架的支持向量机训练方法
本专利技术涉及计算机
，更具体地，涉及一种基于Spark框架的支持向量机训练方法。
技术介绍
支持向量机(SupportVectorMachine，SVM)自出现以来，被大量地运用于信息安全、图像处理、模式识别，故障诊断、异常检测等领域。1999年，Tax，Scholkopf和Duin等人,提出2种OneClassSVM算法，分别是基于超平面和基于超球体的OneClassSVM。其中支持向量数据描述(supportvectordatadescription，SVDD)是用超球体进单类分类方法，其目标在于用训练数据来描述一个超球体作为分类的判别模型。目前的常用的SVM模式识别与回归的软件包是python的scikit-learn和台湾林智仁教授的LIBSVM。其中，Scikit-Learn是基于python的机器学习模块，基于BSD开源许可证，这个项目最早由DavidCournapeau在2007年发起的，目前也是由社区自愿者进行维护；LIBSVM是台湾大学林智仁教授等人开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，它不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进、修改以及在其它操作系统上应用；该软件对SVM所涉及的参数调节相对比较少，提供了很多的默认参数，利用这些默认参数可以解决很多问题；并提供了交互检验的功能。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题，包括基于一对一算法的多类模式识别问题。但随着数据量的指数级的增长，单机版...
一种基于Spark框架的支持向量机训练方法

【技术保护点】
一种基于Spark框架的支持向量机训练方法，其特征在于，包括：S1，获取训练样本集，将所述训练样本集中的所有样本向量分布式储存在Spark框架的数据节点中；S2，从所述训练样本集中抽取违反KKT条件最大的样本向量V2，同时选取与样本向量V2的球心距相差最大的样本向量V1；S3，对所述样本向量V1和V2进行迭代优化计算，获得更新后的样本向量V1

【技术特征摘要】
1.一种基于Spark框架的支持向量机训练方法，其特征在于，包括：S1，获取训练样本集，将所述训练样本集中的所有样本向量分布式储存在Spark框架的数据节点中；S2，从所述训练样本集中抽取违反KKT条件最大的样本向量V2，同时选取与样本向量V2的球心距相差最大的样本向量V1；S3，对所述样本向量V1和V2进行迭代优化计算，获得更新后的样本向量V1new和V2new；S4，将所述更新后的样本向量V1new和V2new广播到所述Spark的数据节点中，在每个数据节点中计算所述样本向量V1和V2产生的差分，根据所述每个数据节点中计算的差分，计算获得更新后的球心anew；S5，根据所述更新后的球心anew，更新所述Spark的数据节点中各个样本向量的球心距，同时更新球体半径R。2.根据权利要求1所述的方法，其特征在于，所述步骤S1还包括：向每个所述数据节点读入对应的该数据节点中所述训练样本中的样本向量，对每一个所述样本向量生成一个唯一数据标识。3.根据权利要求2所述的方法，其特征在于，所述唯一数据标识由所述数据节点的分片区号和数据节点本地的时间戳组合而成。4.根据权利要求2所述的方法，其特征在于，所述步骤S1中还包括初始化所述迭代优化计算所需的计算参数；其中，所述计算参数包括所有样本向量的拉格朗日乘子α、球心a和每个样本向量的球心距d2。5.根据权利要求4所述的方法，其特征在于，所述初始化所述迭代优化计算的计算参数具体包括：初始化所有样本向量的拉格朗日乘子α值为1/N；其中，N为所述训练样本集中所述样本向量的个数；初始化球体半径的平方R2，使得R2＝0；根据以下公式初始化球心：

【专利技术属性】
技术研发人员：许千帆，王宇，陈玫，
申请(专利权)人：北京寄云鼎城科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人