【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种基于网格搜索技术用于SVM的参数优化方法,属于机器学习的参数寻优领域。本方法包括抽样,寻优以及选举三个阶段;具体包括:抽样生成多个训练集:从一个给定的完整样本集中随机抽取样本P次组成P个子集,作为训练集,P为正整数;确保每一个子集中的正负样本比例与全集中的正负样本比例保持一致;每个子集规模大小根据完整样本集的大小预先给定,子集数目P的大小确保反应全集的概率分布;每个子集进行参数寻优:利用网格搜索技术,分别对抽样得到的P个子集并行地进行参数寻优,完整遍历整个参数空间;汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出。本专利技术旨在提升参数寻优过程中的计算效率。【专利说明】—种基于网格搜索技术用于支持向量机的参数寻优方法
本专利技术属于机器学习的参数寻优领域,特别涉及。
技术介绍
支持向量机(SVM)是一种广泛应用的机器学习算法,其在解决小规模样本、非线性以及高维数据的模式识别问题中具有良好的性能表现,处理的问题主要包括了统计分类和回归分析。归因于良好的泛化性能,SVM被广泛应用在各种领域,诸如,文本分类、模式识别、故障诊断等。SVM是基于统计学习理论发展出来的学习算法,现在以二分类问题为例介绍SVM算法,其它问题在算法上有一定的差异,但是基本思路是一致的。首先给出问题定义,假设一组样本集{(Xi, y)| Xi ∈ Rd, i = 1,2,...,η},其中Xi是d维的特征向量,y,表示样本类别,二分类问题有两个类别标识{+1,_1},+1为正类,-1为负类)。通常情况下,样本数据是线性不可分的,SVM通过将 ...
【技术保护点】
一种基于网格搜索技术用于SVM的参数优化方法,其特征在于,对于给定的样本集,采用优化的网格搜索技术进行参数寻优,同时采用N折交叉验证来确保得到可靠稳定的SVM模型;该方法包括抽样,寻优以及选举三个阶段;具体包括以下步骤:步骤1)抽样生成多个训练集:从完整样本集中随机抽取样本P次组成P个子集,作为训练集,P为正整数;确保每一个子集中的正负样本比例与全集中的正负样本比例保持一致;每个子集规模大小根据完整样本集的大小预先给定,子集数目P的大小确保反应全集的概率分布;步骤2)每个子集进行参数寻优:利用网格搜索技术,分别对抽样得到的P个子集并行地进行参数寻优,完整遍历整个参数空间;步骤3)汇总性能结果并且采用选举的方式选出参数组合作为最终的结果输出,具体包括以下两个子步骤:步骤3?1)收集每一个计算任务的最优参数组合作为候选参数组合;每个计算任务采用相同的指标来度量在该任务所负责的数据集上的所有参数组合产生的SVM模型的性能,从中选择性能最优的参数组合,输出到文件中;参数寻优结束后,收集每个计算任务输出的文件,汇总每个计算任务的最优参数组合,构成候选集;步骤3?2)从候选集中选举得到性能最优的参 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:杨广文,季颖生,王小鸽,陈宇樹,薛志辉,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。