当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于Lasso回归的学生班级成绩排名预测方法技术

技术编号:18445760 阅读:38 留言:0更新日期:2018-07-14 10:43
本发明专利技术公开了一种基于Lasso回归的学生班级成绩排名预测方法,包括如下步骤:1、对学生成绩数据集进行数据预处理,使用Pearson correlation‑based similarity对两个年级之间相同专业方向的学生成绩进行匹配,得出学生班级成绩排名匹配数据集;2、对学生成绩数据集进行数据预处理并通过Lasso回归对预处理后的数据集进行预测处理,得到学生班级成绩排名数据集;3、对学生班级成绩排名数据集和学生班级成绩排名匹配数据集进行加权值处理,得到最终学生班级成绩排名预测数据结果集。本发明专利技术有效预测了学生的班级成绩排名,提高学生班级成绩排名预测的准确度。

A prediction method of class achievement ranking based on Lasso regression

The invention discloses a student class grade ranking prediction method based on Lasso regression, which includes the following steps: 1. Preprocessing the data set of students' achievement data and using the Pearson correlation based similarity to match the students' achievement in the same professional direction between the two grades, and get the class performance of the students. Name matching data set; 2. Preprocess the data set of students' score and predict the pre processed data set by Lasso regression. The data set of students' class grades are obtained. 3, the data set of class grade ranking and the matching data set of students' class grades are weighted to get the final result. The student class score is the result set of the forecast data. The invention effectively predicts the class performance ranking of students, and improves the accuracy of students' class performance ranking prediction.

【技术实现步骤摘要】
一种基于Lasso回归的学生班级成绩排名预测方法
本专利技术属于数据预测领域,特别涉及一种基于Lasso回归的学生班级成绩排名预测方法。
技术介绍
如今,随着互联网技术的高速发展,信息的爆炸式增长,迎来了网络大数据,使得数据挖掘技术逐步成为重要的研究领域,为教育领域提供了革命的动力。如何通过数据挖掘技术从现有数据中预测出有价值信息,成为重要的研究内容。数据挖掘中的数据预测技术,目前已经被许多公司所重视,谷歌、亚马逊、腾讯、淘宝等公司通过数据预测技术获得了可观的经济效益。数据预测技术的使用,对现代的信息技术的发展起着重大作用。尽管数据预测的数据来源是具体的数据集,成功预测出有效的结果值还是比较困难的;对于学生成绩排名预测来说数据源的数据集是十分规整的,但是通过现有的数据源,以现有的技术进行学生成绩排名预测还是比较困难的。因此,如何从现有数据源中准确预测出有效结果,成为一个亟待需要研究解决的问题。处于信息大爆炸时代和快节奏生活下的用户人群,越来越倾向于数据处理的效率和准确率。学生成绩预测,通过已有的数据源,结合相关算法,得到结果数据。所有的方法主要解决的是数据预测的准确率和效率,这成为了一个有着研究和实用意义的问题。在现有的信息获取和推送方法中,往往都只解决了上述几个问题中的部分问题。如中国专利文献号CN106127634A,公布日2016-11-16,公开了一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统,通过获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;针对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;针对规范化的学生学习状况数据表,通过服务器中的计算单元计算不同类别中各属性的条件概率及不同类别的先验概率;将待预测的学生数据进行数据转换后输入至训练好的朴素贝叶斯模型进行学生数据分类预测。本专利技术采用的基于朴素贝叶斯模型,所述模型用于实现学生学业成绩的精确预测,可靠性高。中国专利文献号CN106157204A,公布日2016-11-23,公开了一种基于BP神经网络模型的学生学业成绩预测方法及系统,通过获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;针对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;针对规范化的学生学习状况数据表的各属性值进行正交编码,构建BP神经网络的训练数据集,基于该训练数据集进行BP神经网络成绩预测模型的构建和训练;将待预测的学生数据进行数据转换、规范化、正交编码及归一化处理后输入至训练好的基于BP神经网络的成绩预测模型进行学业成绩分类预测,获得学生学业成绩预测结果并通过显示单元进行显示。本专利技术采用的BP神经网络模型,所述模型用于实现学生学业成绩的精确预测,可靠性高。中国专利文献号CN105894119A,公布日2016-08-24,公开了一种基于校园数据的学生排名预测方法,采集所有在校学生的数据,包括成绩数据和行为数据,对学生数据进行数据清洗,并对非时间数据项进行数据规范,从处理后的数据提取出每个学生的行为特征向量,行为特征包括成绩特征、努力程度特征和生活规律特征,然后对行为特征向量进行降维,每个学生采用其降维后的行为特征向量减去其他每个学生的行为特征向量,求得差异特征向量,输入分类器中得到对应的标签值,将标签值求和得到学生的得分,将所有学生的得分进行排序,即可得到每个学生的排名预测值。本专利技术通过对学生的校园数据进行分析,用数据来描述学生的学习习惯和行为特征,预测得到学生排名,作为学生教育的参考。当然,目前还存在很多的学生成绩预测方法,很多基于现有的数据预测进行改进的方法也在被不断的提出。但是现有的方法往往都只关注于学生成绩预测问题中的某一点,很多方法通过分析学生已有成绩确定学生的成绩预测值,在准确率上面缺乏了准确性,导致不能满足用户要求的准确率。综上所述研究专利技术一种基于Lasso回归的学生班级成绩排名预测方法对学生正确评估自己成绩和老师管理有着重要的作用和意义。传统的方法无法实现对学生成绩准确的评估。近年来对数值型数据的预测方法越来越多,如神经网络、回归预测、决策树和支持向量机等。专利技术人已有的研究基础包括:朱全银,严云洋,周培,谷天峰.一种基于线性插补与自适应滑动窗口的商品价格预测模型.山东大学学报.2012,Vol.42(5):53-58;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取方法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82;QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285;QuanyinZhu,SuqunCao,PeiZhou,YunyangYan,HongZhou.IntegratedPriceForecastbasedonDichotomyBackfillingandDisturbanceFactorAlgorithm.InternationalReviewonComputersandSoftware,2011,Vol.6(6):1089-1093;ZhuQuan-yin,YinYonghua,YanYun-yang,GuTian-feng.ANovelEfficientAdaptiveSlidingWindowModelforWeek-aheadPriceForecasting.TELKOMNIKAIndonesianJournalofElectricalEngineering.2014.Vol.12(3):2219-2226;ZhuQuanyin,PanLu,YinYonghuaLiXiang.InfluenceonNormalizationandMagnitudeNormalizationforPriceForecastingofAgriculturalProducts.InformationTechnologyJournal(ITJ).2013.Vol.12(15):3046-3057;QuanyinZhu,JinDing,YonghuaYin,PeiZhou.AHybridApproachforNewProductsDiscoveryofCellPhoneBasedonWebMining.JournalofInformationandComputationalScience(JICS).2012,Vol.9(16):5039-5046。朱全银等人申请、公开与授权的相关专利:朱全银,尹永华,严云洋,曹苏群等,一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利:ZL201210325368.6,2016.06.08;朱全银,胡蓉静,何苏群,周培等本文档来自技高网...

【技术保护点】
1.一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,包括如下步骤:步骤一:对学生成绩数据集进行数据预处理,使用Pearson correlation‑based similarity对两个年级之间相同专业方向的学生成绩进行匹配,得出学生班级成绩排名匹配数据集;步骤二:对学生成绩数据集进行数据预处理并通过Lasso回归对预处理后的数据集进行预测处理,得到学生班级成绩排名数据集;步骤三:对学生班级成绩排名数据集和学生班级成绩排名匹配数据集进行加权值处理,得到最终学生班级成绩排名预测数据结果集。

【技术特征摘要】
1.一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,包括如下步骤:步骤一:对学生成绩数据集进行数据预处理,使用Pearsoncorrelation-basedsimilarity对两个年级之间相同专业方向的学生成绩进行匹配,得出学生班级成绩排名匹配数据集;步骤二:对学生成绩数据集进行数据预处理并通过Lasso回归对预处理后的数据集进行预测处理,得到学生班级成绩排名数据集;步骤三:对学生班级成绩排名数据集和学生班级成绩排名匹配数据集进行加权值处理,得到最终学生班级成绩排名预测数据结果集。2.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤一中使用Pearsoncorrelation-basedsimilarity对两个年级之间相同专业方向的学生成绩进行匹配的具体步骤如下:步骤1.1:对学生成绩进行预处理,将学生成绩数据按照年级、班级和学生次序依次整理,并对学生成绩进行等第归类,等第分为:优秀、良好、中等、及格和不及格,分别统计学生各个等第在取得的成绩中所占比重;步骤1.2:使用Pearsoncorrelation-basedsimilarity,对两个年级之间相同专业方向的学生成绩进行匹配,得到与待求班级成绩排名匹配数据的学生最相似的高年级学生班级成绩排名;步骤1.3:根据待求班级成绩排名匹配数据的学生最相似的高年级学生班级成绩排名,得到学生班级成绩排名匹配数据集。3.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤二中使用Lasso回归对预处理后的数据集进行预测处理的具体步骤如下:步骤2.1:对学生成绩数据进行预处理,将学生成绩处理为按学号、取得成绩中的学期学分最高成绩数据集和取得的学期班级成绩排名数据集所组成的新的数据集;步骤2.2:计算取得成绩中的学期学分最高成绩的平均成绩,使用Lasso回归,以学生的学期学分最高成绩数据集和取得的学期班级成绩排名数据集所组成的新的数据集为训练数据集,基于学生取得成绩中的学期学分最高成绩的平均成绩,得到学生班级成绩排名数据集。4.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤三中对学生班级成绩排名数据集和学生班级成绩排名匹配数据集进行加权值处理的具体步骤如下:步骤3.1:定义最终学生班级成绩排名预测数据结果集,加权值为WV;步骤3.2:通过对学生班级成绩排名匹配数据集和学生班级成绩排名数据集进行加权值处理,得到最终学生班级成绩排名预测数据结果集。5.根据权利要求4所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤3.1中加权值WV取值为0.5。6.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤一中使用Pearsoncorrelation-basedsimilarity对两个年级之间相同专业方向的学生成绩进行匹配的具体步骤如下:步骤101:定义YEAR为年级学生成绩数据集,YEAR={year1,year2,year3,year4},其中,yearh为第h年级中班级学生成绩数据集,yearh∈YEAR,h∈[1,4];步骤102:yearh={cla1,cla2,…,claclasum},其中,clasum为yearh中班级的个数,clai为第i班的学生成绩数据集,clai∈yearh,i∈[1,clasum];步骤103:clai={stu1,stu2,…,stustusum},其中,stusum为clai中学生成绩数据集个数,stuj为第j个学生的成绩数据集,stuj∈clai,j∈[1,stusum];步骤104:stuj={snoj,gradej,rankj},其中,snoj为stuj对应的学号,gradej为stuj对应的成绩数据集,rankj为stuj所取得的学期班级成绩排名数据集;步骤105:gradej={gra1,gra2,gra3,gra4,gra5},其中,gra1为stuj对应的成绩为优秀或大于等于90小于等于100在stuj取得成绩中的比例,gra2为stuj对应的成绩为良好或大于等于80小于90在stuj取得成绩中的比例,gra3为stuj对应的成绩为中等或大于等于70小于80在stuj取得成绩中的比例,gra4为stuj对应的成绩为及格或大于等于60小于70在stuj取得成绩中的比例,gra5为stuj对应的成绩为不及格或小于60在stuj取得成绩中的比例;步骤106:rankj={ran1,ran2,…,ranransum},其中,ransum为stuj所取得的学期班级成绩排名数据个数,ranp为stuj所取得的单学期班级成绩排名数据,ranp∈rankj,p∈[1,ransum];步骤107:定义学生班级成绩排名匹配数据集forecast={{sonp1,fore1},{sonp2,fore2},…,{sonpsopsum,foresnopsum}},其中,sonpsum为forecast中的学生人数,sonpm为第m个学生的学号,forem为学生学号为sonpm对应的期末班级成绩排名匹配值,{sonpm,forem}∈forecast,m∈[1,snopsum];步骤108:定义循环变量a,赋初始值为1,用于循环遍历YEAR;定义循环变量n,赋初始值1,用于循环遍历forecast;定义NULL为空;步骤109:如果a<=3,则跳转到步骤110,否则,跳转到步骤125;步骤110:第a年级中班级学生成绩数据集yeara={cla1,cla2,…,claclasum};定义循环变量b,赋初始值为1,用于循环遍历yeara;步骤111:如果b<=clasum,则跳转到步骤112,否则,跳转到步骤124;步骤112:第b班级成绩数据集clab={stu1,stu2,…,stustusum},定义循环变量c,赋初始值为1,用于循环遍历clab;步骤113:如果c<=stusum,则跳转到步骤114,否则,跳转到步骤123;步骤114:如果rankc=NULL,则跳转到步骤122,否则,跳转到步骤115;步骤115:从yeara+1中取数据集clak,clak为stuc所在班级clab高一年级相同专业班级的学生各科成绩所统计出的成绩数据集,k∈[1,clasum],clak∈yeara+1,clak={stu1,stu2,…,stustudentsum},其中,studentsum为clak中学生成绩数据集个数,stup={snop,gradep,rankp},stup∈clak,p∈[1,studentsum];定义循环变量q,赋初始值1,...

【专利技术属性】
技术研发人员:朱全银唐娥邵武杰李翔唐海波高阳钱凯潘舒新瞿学新
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1