一种基于SVM的贫困生辅助认定方法技术

技术编号:19009561 阅读:21 留言:0更新日期:2018-09-22 09:22
本发明专利技术公开了一种基于SVM的贫困生辅助认定方法,包括以下步骤:采集学生数据,并对学生数据进行预处理;对预处理学生数据提取特征,通过随机森林对特征重要性进行排名;在满足Mercer条件下,构造混合核函数,并植入SVM中;使用遗传算法对混合核函数参数进行寻优,得到最优混合核函数参数;将最优混合核函数参数代入SVM,并对学生数据进行训练,得到分类器模型;将需要认定的学生数据输入分类器模型,输出分类结果;本发明专利技术采用遗传算法对基于SVM混合核函数参数进行寻优,用适应度作为评价依据,通过随机重组重要基因,让群体中的个体不断进化,获取最优解,减少全局搜索时间,提高了分类器的推广泛化能力,并降低成本。

An assistant identification method for poor students based on SVM

The invention discloses an assistant identification method for impoverished students based on SVM, which comprises the following steps: collecting students'data and pretreating students' data; extracting features from pre-processed students'data and ranking the importance of features through random forests; constructing a hybrid kernel function under Mercer conditions, and implanting SVM. In this paper, genetic algorithm is used to optimize the parameters of hybrid kernel function to obtain the optimal parameters of hybrid kernel function; the optimal parameters of hybrid kernel function are substituted into SVM, and the students'data are trained to get the classifier model; the classifier model will be input to the identified student data, and the classification results will be output; the invention adopts genetic algorithm. The method optimizes the parameters of SVM hybrid kernel function, and uses fitness as the evaluation basis. By randomly recombining important genes, individuals in the population can evolve continuously, obtain the optimal solution, reduce the global search time, improve the generalization ability of the classifier, and reduce the cost.

【技术实现步骤摘要】
一种基于SVM的贫困生辅助认定方法
本专利技术涉及SVM核函数研究领域,特别涉及一种基于SVM的贫困生辅助认定方法。
技术介绍
随着高等教育的发展,越来越多贫困生进入大学,资助贫困生也成为高校重要的学生工作。而贫困生资格认定是高校资助工作的前提和基础。目前主流的认定方式是通过人工甄别申请材料,认定过程中存在认定程序僵化、责任主体缺乏伦理监督等问题,难以保证公平客观公正。在信息爆炸时代,兴起的机器学习方法尚不能提出很好的解决方案,在分类器的训练上、分类器的拟合上都存着各种各样的问题。基于统计学习理论提出的支持向量机SVM遵循结构风险最小化原则,有效地避免了维数灾难,但其算法训练时间复杂度较高,泛化能力不够理想,在贫困生辅助认定的应用中始终乏力。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于SVM的贫困生辅助认定方法。本专利技术的目的通过以下的技术方案实现:一种基于SVM的贫困生辅助认定方法,包括以下步骤:S1、采集学生数据,并对学生数据进行预处理;S2、对预处理学生数据提取特征,通过随机森林对特征重要性进行排名;S3、在满足Mercer条件下,构造混合核函数,并植入支持向量机SVM中;S4、使用遗传算法对混合核函数参数进行寻优,得到最优混合核函数参数;S5、将最优混合核函数参数代入SVM中进行训练,训练之后得到分类器模型;S6、将学生数据输入分类器模型,输出分类结果。步骤S1中,所述学生数据包含学生一卡通流水记录、学生基本信息、学生成绩和贫困生名单;所述学生基本信息包含学生ID、学生性别、学生名字;学生基本信息包含学生ID、学生性别、学生名字。步骤S1中,所述预处理包含去重、缺失值处理和格式化;所述去重为:将学生数据按学生ID进行排序,通过比较邻近记录是否相似来检测记录是否重复,重复则删除重复记录;所述缺失值处理为:学生数据中某个记录的某个字段为空,则使用平均值进行填充;所述格式化为:将消费时间格式化为yyyy-MM-dd;消费金额统一单位为分,超限则四舍五入;通过预处理,是数据更合理。步骤S2具体过程为:U1、从学生一卡通流水记录构造特征;从时间维度、地点维度和交易维度统计均值和方差;U2、将学生一卡通流水记录和学生基本信息、学生成绩、贫困生名单,进行归一化数据特征;U3、使用随机森林对特征重要性进行排名,根据排名,选择前30个特征。使用随机森林对特征重要性进行排名,具体为:Y1、设定N个样本,每个样本有M个特征;Y2、从N个样本中有放回的随机抽取,抽取N次,作为训练一棵决策树的样本;Y3、每个节点随机抽取m个特征,m<M,从中选取信息增益最大的特征作为决策树的分裂节点,在决策树成长的过程中,m值保持不变;Y4、重复步骤Y2、Y3,建立大量的决策树,构成随机森林;Y5、计算每个特征在随机森林中每棵树上的评分均值,作为特征重要性依据。步骤S3,具体过程为:基于对局部核函数和全局核函数,构造混合核函数,并植入支持向量机SVM中:其中,ρ为混合核函数权系数;步骤S4中,所述寻优过程具体如下:V1、设置参数:初始种群数量为60,选择代购为0.8,交叉概率为0.6,变异概率为0.06;V2、使用遗传算法确认混合核函数最优混合核函数参数,确认惩罚因子和确认混合核函数权系数;V3、混合核函数参数、混合核函数权系数和惩罚因子采用二进制编码,并把其二进制编码组合得到个体染色体基因串,构造出多个染色体组合一个初始种群;V4、根据初始种群计算适应度值:其中,P为查准率,R为查全率,TP为真正例数目,FP为假正例数目,FN为假反例数目;ρ决定了核函数在混合核函数中的比重;若ρ>0.5,则全局核函数占主导;若ρ<0.5,局部核函数占主导;否则二者重要程度相当。可通过调节ρ来灵活组合局部核函数和全局核函数,同时发挥二者长处。设遗传算法中的适应度值为f(Xi),即10折交叉验证的macroF1值,则有:其中,Pi为第i次训练查准率;macroP为宏查准率,是10次训练查准率平均值;Ri为第i次训练查全率;macroR为宏查全率,是10次训练查全率平均值;macroF1为宏F1,是基于宏查准率和宏查全率的调和平均值,即为适应度值;V5、根据适应度值计算染色体入选种群概率:其中,p(Xi)为第i个染色体入选种群概率,Xi为第i个染色体;V6、根据入选种群概率的高低,选择代沟为0.8,即保留概率较高的80%染色体,将保留的染色体进行交叉运算和变异运算:所述交叉运算为随机选取两条染色体,随机选择一个交配点做单点杂交,将产生的新的两条染色体代替原来的染色体,放回初始种群;交叉运算概率为0.6;所述变异运算为杂交后的个体进行变异运算,随机选取一条染色体;V7、通过不断进化,获取最优混合核函数系数、最优确认惩罚因子和最优确认混合核函数权系数。步骤S5,具体过程为:根据步骤S4获得的最优混合核函数系数,使用SMO算法通过训练学生数据得到最优的其中,为拉格朗日乘子的最优解,为分类超平面的最优解;即:SMO每次选取两个拉格朗日乘子,固定其余参数;求解:其中,ai、aj为拉格朗日乘子;yi为第i个学生标识,yj为第j个学生标识;获得更新后的ai、aj;求解非线性支持向量机和其对偶问题,重复选取和求解,得到其中非线性支持向量机为:其中,ω为分类超平面法向量,ξ为松弛变量,Φ(xi)为将xi映射后的特征向量;对偶问题:通过得到分类器模型:其中,x为需要认定的学生数据特征值。步骤S6,具体如下:将需要认定的学生数据输入到分类器模型中,通过分类器模型,得出f(x),若为正则表示这个学生大概率为贫困生,若为负则表示这个学生大概率不是贫困生,再通过实际考核,认定新的贫困生,添加到贫困生名单中,得到新的贫困生名单。本专利技术与现有技术相比,具有如下优点和有益效果:本专利技术采用遗传算法对混合核函数参数进行寻优,模拟生物的自然选择和遗传机制,用编码空间代替问题参数空间,用适应度作为评价依据,通过随机重组重要基因,让群体中的个体不断进化,逐步接近最优解,减少全局搜索时间,充分发挥局部核函数和全局核函数的优势,在不增加训练时间复杂度的前提下,提高了分类器的推广泛化能力,降低成本。附图说明图1是本专利技术一种基于SVM的贫困生辅助认定的方法流程框图;具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例如图1所示,一种基于SVM的贫困生辅助认定方法,包括以下步骤:第一步:采集学生数据,并对学生数据进行预处理;学生数据包含学生一卡通流水记录、学生基本信息、学生成绩和贫困生名单;学生基本信息包含学生ID、学生性别、学生名字;预处理包含去重、缺失值处理和格式化;去重为:将学生数据按学生ID进行排序,通过比较邻近记录是否相似来检测记录是否重复,重复则删除重复记录;缺失值处理为:学生数据中某个记录的摸个字段为空,则使用平均值进行填充;格式化为:将消费时间格式化为yyyy-MM-dd;消费金额统一单位为分,超限则四舍五入。第二步:对预处理学生数据提取特征,通过随机森林对特征重要性进行排名;从一卡通流水记录中构造特征,即各时间段、各地点的消费、充值等行为的总额、均值计数等统计量。其中,时间维度可分为一天本文档来自技高网...
一种基于SVM的贫困生辅助认定方法

【技术保护点】
1.一种基于SVM的贫困生辅助认定方法,其特征在于,包括以下步骤:S1、采集学生数据,并对学生数据进行预处理;S2、对预处理学生数据提取特征,通过随机森林对特征重要性进行排名;S3、在满足Mercer条件下,构造混合核函数,并植入SVM中;S4、使用遗传算法对混合核函数参数进行寻优,得到最优混合核函数参数;S5、将最优混合核函数参数代入SVM中进行训练,训练之后得到分类器模型;S6、将需要认定的学生数据输入分类器模型,输出分类结果。

【技术特征摘要】
1.一种基于SVM的贫困生辅助认定方法,其特征在于,包括以下步骤:S1、采集学生数据,并对学生数据进行预处理;S2、对预处理学生数据提取特征,通过随机森林对特征重要性进行排名;S3、在满足Mercer条件下,构造混合核函数,并植入SVM中;S4、使用遗传算法对混合核函数参数进行寻优,得到最优混合核函数参数;S5、将最优混合核函数参数代入SVM中进行训练,训练之后得到分类器模型;S6、将需要认定的学生数据输入分类器模型,输出分类结果。2.根据权利要求1所述的一种基于SVM的贫困生辅助认定方法,其特征在于,步骤S1中,所述学生数据包含学生一卡通流水记录、学生基本信息、学生成绩和贫困生名单;所述学生基本信息包含学生ID、学生性别、学生名字。3.根据权利要求1所述的一种基于SVM的贫困生辅助认定方法,其特征在于,步骤S1中,所述预处理包含去重、缺失值处理和格式化;所述去重为:将学生数据按学生ID进行排序,通过比较邻近记录是否相似来检测记录是否重复,重复则删除重复记录;所述缺失值处理为:学生数据中某个记录的某个字段为空,则使用平均值进行填充;所述格式化为:将消费时间格式化为yyyy-MM-dd;消费金额统一单位为分,超限则四舍五入。4.根据权利要求1所述的一种基于SVM的贫困生辅助认定方法,其特征在于,所述步骤S2具体过程为:U1、从学生一卡通流水记录构造特征;从时间维度、地点维度和交易维度统计均值和方差;U2、将学生一卡通流水记录数据特征、学生基本信息数据特征、学生成绩数据特征和贫困生名单数据特征,进行归一化;U3、使用随机森林对特征重要性进行排名,根据排名,选择前30个特征。5.根据权利要求4所述的一种基于SVM的贫困生辅助认定方法,其特征在于,所述使用随机森林对特征重要性进行排名具体为:Y1、设定N个样本,每个样本有M个特征;Y2、从N个样本中有放回的随机抽取,抽取N次,作为训练一棵决策树的样本;Y3、每个节点随机抽取m个特征,m<M,从中选取信息增益最大的特征作为决策树的分裂节点,在决策树成长的过程中,m值保持不变;Y4、重复步骤Y2、Y3,建立大量的决策树,构成随机森林;Y5、计算每个特征在随机森林中每棵树上的评分均值,作为特征重要性依据。6.根据权利要求1所述的一种基于SVM的贫困生辅助认定方法,其特征在于,所述步骤S3,具体过程为:基于对局部核函数和全局核函数,构造混合核函数,并植入SVM中:其中,ρ为混合核函数权系数,为高斯核,属于局部核函数;σ为高斯核的带宽,σ>0,[(xi·xj)+c]d为多项式核,属于全局核函数,c为自由参数,c≥0;d为多项式次数,d≥1,xi为第i个样本的特征值向量,xj为第j个样本的特征值向量。7.根据权利要求1所述的...

【专利技术属性】
技术研发人员:彭新一余珍
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1