当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于网格搜索技术用于支持向量机的参数寻优方法技术

技术编号:9967599 阅读:336 留言:0更新日期:2014-04-25 08:20
本发明专利技术涉及一种基于网格搜索技术用于SVM的参数优化方法,属于机器学习的参数寻优领域。本方法包括抽样,寻优以及选举三个阶段;具体包括:抽样生成多个训练集:从一个给定的完整样本集中随机抽取样本P次组成P个子集,作为训练集,P为正整数;确保每一个子集中的正负样本比例与全集中的正负样本比例保持一致;每个子集规模大小根据完整样本集的大小预先给定,子集数目P的大小确保反应全集的概率分布;每个子集进行参数寻优:利用网格搜索技术,分别对抽样得到的P个子集并行地进行参数寻优,完整遍历整个参数空间;汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出。本发明专利技术旨在提升参数寻优过程中的计算效率。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于网格搜索技术用于SVM的参数优化方法,属于机器学习的参数寻优领域。本方法包括抽样,寻优以及选举三个阶段;具体包括:抽样生成多个训练集:从一个给定的完整样本集中随机抽取样本P次组成P个子集,作为训练集,P为正整数;确保每一个子集中的正负样本比例与全集中的正负样本比例保持一致;每个子集规模大小根据完整样本集的大小预先给定,子集数目P的大小确保反应全集的概率分布;每个子集进行参数寻优:利用网格搜索技术,分别对抽样得到的P个子集并行地进行参数寻优,完整遍历整个参数空间;汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出。本专利技术旨在提升参数寻优过程中的计算效率。【专利说明】—种基于网格搜索技术用于支持向量机的参数寻优方法
本专利技术属于机器学习的参数寻优领域,特别涉及。
技术介绍
支持向量机(SVM)是一种广泛应用的机器学习算法,其在解决小规模样本、非线性以及高维数据的模式识别问题中具有良好的性能表现,处理的问题主要包括了统计分类和回归分析。归因于良好的泛化性能,SVM被广泛应用在各种领域,诸如,文本分类、模式识别、故障诊断等。SVM是基于统计学习理论发展出来的学习算法,现在以二分类问题为例介绍SVM算法,其它问题在算法上有一定的差异,但是基本思路是一致的。首先给出问题定义,假设一组样本集{(Xi, y)| Xi ∈ Rd, i = 1,2,...,η},其中Xi是d维的特征向量,y,表示样本类别,二分类问题有两个类别标识{+1,_1},+1为正类,-1为负类)。通常情况下,样本数据是线性不可分的,SVM通过将样本数据从原始的不可分空间映射到一个高维可分空间中,将原来线性不可分的样本数据转化成了线性可分的,然后建立一个最大间隔超平面,这个最大间隔超平面通过一个决策函数来表示,就是SVM训练得到的模型或称为模型(任何机器学习算法训练得到的都称之为模型),使得两边的样本数据到超平面的距离最大化,如图1(a)所示,中间虚线是超平面,两边平行的实线是样本数据距离超平面最近的点(图中的小圆圈和小三角),SVM要求的是最大化这两条实线间隔距离的那个虚线代表的超平面。SVM模型的建立和使用包括以下两个阶段:阶段1:训练阶段,通过训练数据,求解最大间隔超平面(即得到模型,算法本质是解如下的二次规划问题):【权利要求】1.一种基于网格搜索技术用于SVM的参数优化方法,其特征在于,对于给定的样本集,采用优化的网格搜索技术进行参数寻优,同时采用N折交叉验证来确保得到可靠稳定的SVM模型; 该方法包括抽样,寻优以及选举三个阶段;具体包括以下步骤: 步骤I)抽样生成多个训练集:从完整样本集中随机抽取样本P次组成P个子集,作为训练集,P为正整数;确保每一个子集中的正负样本比例与全集中的正负样本比例保持一致;每个子集规模大小根据完整样本集的大小预先给定,子集数目P的大小确保反应全集的概率分布; 步骤2)每个子集进行参数寻优:利用网格搜索技术,分别对抽样得到的P个子集并行地进行参数寻优,完整遍历整个参数空间; 步骤3)汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出,具体包括以下两个子步骤: 步骤3-1)收集每一个计算任务的最优参数组合作为候选参数组合; 每个计算任务采用相同的指标来度量在该任务所负责的数据集上的所有参数组合产生的SVM模型的性能,从中选择性能最优的参数组合,输出到文件中;参数寻优结束后,收集每个计算任务输出的文件,汇总每个计算任务的最优参数组合,构成候选集; 步骤3-2)从候选集中选举得到性能最优的参数组合: 将候选集中每个参数组合用一个点表示,候选集中所有参数组合在空间上的分布形成一个概率云模型图,找出所有参数点中距离云模型所有点的质心最近的那个点为汇聚点,该汇聚点就是所求最佳参数组合,如果存在多个汇聚点,将汇聚点取出查看明细投票数,得出最佳参数组合。2.如权利要求1所述方法,其特征在于,所述步骤2)具体包括以下两种并行化方式: 方式1:每个子集作为单个独立的计算任务进行参数寻优计算,每个子集分配到计算机集群中的一个核上进行参数寻优,各计算任务是并行执行,在P个核上同时进行参数寻优; 方式2:每个子集并行地进行N折交叉验证的计算过程,每个子集分为N个次子集,其中N-1个作为训练集,I个作为测试集,总共进行N轮交叉验证的计算,每个计算任务配到计算机集群中的一个核上进行参数寻优,各计算任务并行执行,每个子集进行N折交叉验证,每一轮的N个计算任务分配到N个核上进行计算,共NXP个计算任务分配到NXP个核上同时进行参数寻优,N为正整数。【文档编号】G06F17/30GK103744978SQ201410016619【公开日】2014年4月23日 申请日期:2014年1月14日 优先权日:2014年1月14日 【专利技术者】杨广文, 季颖生, 王小鸽, 陈宇樹, 薛志辉 申请人:清华大学本文档来自技高网...

【技术保护点】
一种基于网格搜索技术用于SVM的参数优化方法,其特征在于,对于给定的样本集,采用优化的网格搜索技术进行参数寻优,同时采用N折交叉验证来确保得到可靠稳定的SVM模型;该方法包括抽样,寻优以及选举三个阶段;具体包括以下步骤:步骤1)抽样生成多个训练集:从完整样本集中随机抽取样本P次组成P个子集,作为训练集,P为正整数;确保每一个子集中的正负样本比例与全集中的正负样本比例保持一致;每个子集规模大小根据完整样本集的大小预先给定,子集数目P的大小确保反应全集的概率分布;步骤2)每个子集进行参数寻优:利用网格搜索技术,分别对抽样得到的P个子集并行地进行参数寻优,完整遍历整个参数空间;步骤3)汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出,具体包括以下两个子步骤:步骤3?1)收集每一个计算任务的最优参数组合作为候选参数组合;每个计算任务采用相同的指标来度量在该任务所负责的数据集上的所有参数组合产生的SVM模型的性能,从中选择性能最优的参数组合,输出到文件中;参数寻优结束后,收集每个计算任务输出的文件,汇总每个计算任务的最优参数组合,构成候选集;步骤3?2)从候选集中选举得到性能最优的参数组合:将候选集中每个参数组合用一个点表示,候选集中所有参数组合在空间上的分布形成一个概率云模型图,找出所有参数点中距离云模型所有点的质心最近的那个点为汇聚点,该汇聚点就是所求最佳参数组合,如果存在多个汇聚点,将汇聚点取出查看明细投票数,得出最佳参数组合。...

【技术特征摘要】

【专利技术属性】
技术研发人员:杨广文季颖生王小鸽陈宇樹薛志辉
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1