A parallel particle swarm optimization method based on spark for parameter optimization of support vector machine (SVM) is applied to machine learning model training. The initialization information of all nodes into particle RDD is stored on nodes; particle cross validation of different address coordinate parameters, node mapping accuracy, particle particle for cross validation of individual extremum; all nodes using particle individual extremum find the global extremum; according to the updated node particles in each RDD to determine the global extremum; whether the global minimum can achieve the target accuracy or the number of iterations to reach a limit, to quit the optimization process, otherwise repeat the node particles are parallel make cross validation. The optimization process runs fast and the search range is large. Particle swarm optimization algorithm searches for global optimization accurately and rapidly.
【技术实现步骤摘要】
一种基于spark的支持向量机参数优选并行粒子群寻优方法
本专利技术涉及一种并行粒子群算法,尤其适用于机器学习模型训练使用的基于spark的支持向量机参数优选并行粒子群寻优方法。
技术介绍
支持向量机是一种机器学习方法。首先通过对训练数据集交叉验证得到最优模型参数,然后利用上一步寻到的最优模型参数去训练得到预测模型,最后用训练得到的预测模型对未知数据进行预测。网格算法对参数寻优早已实现,网格算法具有局部最优的局限性,而粒子群算法的全局寻优能力则很好的解决了局部最优问题。粒子群算法是一种模仿鸟群觅食的生物进化算法,相比基于贪婪搜索的算法,可更快速地找到更优的参数。PSO涉及多次迭代,计算较复杂,单机实现时间较长。特别在数据量较大、迭代次数很多的情形下,PSO单机算法效率往往难以被接受。解决PSO单机算法效率低下的最好方法就是算法并行化。
技术实现思路
本专利技术的目的是针对上述技术的不足之处,提出一种粒子参数寻优过程运行速度快,粒子群算法寻找全局最优准确迅速的基于spark的支持向量机参数优选并行粒子群算法。为实现上述技术目的,本专利技术的基于Spark的支持向量机参数 ...
【技术保护点】
一种基于spark的支持向量机参数优选并行粒子群寻优方法,其特征在于包括如下步骤:初始化节点粒子群中所有的节点粒子,并将节点粒子的初始化信息转化成RDD的形式存储于数据库中;在RDD中针对不同地址坐标参数的节点粒子分别并行的做交叉验证,节点粒子映射为交叉验证的正确率、粒子的个体极值,并将RDD中的这些映射结果缓存到服务器内存中,以方便下一次计算时被再次调用;利用RDD中所有节点粒子的个体极值找到全局极值;根据全局极值在各个RDD中更新节点粒子;判断该全局极值是否达到目标正确率或迭代次数达到上限,达到就退出寻优过程,否则重复对节点粒子分别并行的做交叉验证。
【技术特征摘要】
1.一种基于spark的支持向量机参数优选并行粒子群寻优方法,其特征在于包括如下步骤:初始化节点粒子群中所有的节点粒子,并将节点粒子的初始化信息转化成RDD的形式存储于数据库中;在RDD中针对不同地址坐标参数的节点粒子分别并行的做交叉验证,节点粒子映射为交叉验证的正确率、粒子的个体极值,并将RDD中的这些映射结果缓存到服务器内存中,以方便下一次计算时被再次调用;利用RDD中所有节点粒子的个体极值找到全局极值;根据全局极值在各个RDD中更新节点粒子;判断该全局极值是否达到目标正确率或迭代次数达到上限,达到就退出寻优过程,否则重复对节点粒子分别并行的做交叉验证。2.根据权利要求1所述的基于Spark的支持向量机参数优选并行粒子群寻优方法,其特征在于具体步骤如下:步骤1、利用spark集群平台的固有定义函数API的转换操作符map函数,对预设的所有主节点和从节点中的节点粒子进行初始化,从而获得基于Spark的支持向量机的N个节点粒子的初始化信息包括速度、位置、个体极值、全局极值信息,并将N个节点粒子的初始化信息转化成弹性分布式数据集RDD的形式保存在数据库中;步骤2、在数据库中弹性分布式数据集RDD中调用spark集群平台的固有定义函数API的转换操作符map函数,获取弹性分布式数据集RDD中各个节点粒子的坐标参数组<c,g>:将带有不同坐标参数组<c,g>的节点粒子同时并行进行交叉验证,从而获取各个节点粒子通过map函数映射为交叉验证的正确率、节点粒子的个体极值,将各个节点粒子的交叉验证结果以相互独立的方式保存在弹性分布式数据集RDD中,使每个粒子都被映射成独立的新的弹性分布式数据集RDD...
【专利技术属性】
技术研发人员:刘鹏,仰彦妍,赵慧含,叶帅,尹良飞,王学奎,孟磊,
申请(专利权)人:中国矿业大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。