The invention discloses a student class grade ranking prediction method based on Lasso regression, which includes the following steps: 1. Preprocessing the data set of students' achievement data and using the Pearson correlation based similarity to match the students' achievement in the same professional direction between the two grades, and get the class performance of the students. Name matching data set; 2. Preprocess the data set of students' score and predict the pre processed data set by Lasso regression. The data set of students' class grades are obtained. 3, the data set of class grade ranking and the matching data set of students' class grades are weighted to get the final result. The student class score is the result set of the forecast data. The invention effectively predicts the class performance ranking of students, and improves the accuracy of students' class performance ranking prediction.
【技术实现步骤摘要】
一种基于Lasso回归的学生班级成绩排名预测方法
本专利技术属于数据预测领域,特别涉及一种基于Lasso回归的学生班级成绩排名预测方法。
技术介绍
如今,随着互联网技术的高速发展,信息的爆炸式增长,迎来了网络大数据,使得数据挖掘技术逐步成为重要的研究领域,为教育领域提供了革命的动力。如何通过数据挖掘技术从现有数据中预测出有价值信息,成为重要的研究内容。数据挖掘中的数据预测技术,目前已经被许多公司所重视,谷歌、亚马逊、腾讯、淘宝等公司通过数据预测技术获得了可观的经济效益。数据预测技术的使用,对现代的信息技术的发展起着重大作用。尽管数据预测的数据来源是具体的数据集,成功预测出有效的结果值还是比较困难的;对于学生成绩排名预测来说数据源的数据集是十分规整的,但是通过现有的数据源,以现有的技术进行学生成绩排名预测还是比较困难的。因此,如何从现有数据源中准确预测出有效结果,成为一个亟待需要研究解决的问题。处于信息大爆炸时代和快节奏生活下的用户人群,越来越倾向于数据处理的效率和准确率。学生成绩预测,通过已有的数据源,结合相关算法,得到结果数据。所有的方法主要解决的是数据预测的准确率和效率,这成为了一个有着研究和实用意义的问题。在现有的信息获取和推送方法中,往往都只解决了上述几个问题中的部分问题。如中国专利文献号CN106127634A,公布日2016-11-16,公开了一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统,通过获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;针对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;针对规 ...
【技术保护点】
1.一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,包括如下步骤:步骤一:对学生成绩数据集进行数据预处理,使用Pearson correlation‑based similarity对两个年级之间相同专业方向的学生成绩进行匹配,得出学生班级成绩排名匹配数据集;步骤二:对学生成绩数据集进行数据预处理并通过Lasso回归对预处理后的数据集进行预测处理,得到学生班级成绩排名数据集;步骤三:对学生班级成绩排名数据集和学生班级成绩排名匹配数据集进行加权值处理,得到最终学生班级成绩排名预测数据结果集。
【技术特征摘要】
1.一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,包括如下步骤:步骤一:对学生成绩数据集进行数据预处理,使用Pearsoncorrelation-basedsimilarity对两个年级之间相同专业方向的学生成绩进行匹配,得出学生班级成绩排名匹配数据集;步骤二:对学生成绩数据集进行数据预处理并通过Lasso回归对预处理后的数据集进行预测处理,得到学生班级成绩排名数据集;步骤三:对学生班级成绩排名数据集和学生班级成绩排名匹配数据集进行加权值处理,得到最终学生班级成绩排名预测数据结果集。2.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤一中使用Pearsoncorrelation-basedsimilarity对两个年级之间相同专业方向的学生成绩进行匹配的具体步骤如下:步骤1.1:对学生成绩进行预处理,将学生成绩数据按照年级、班级和学生次序依次整理,并对学生成绩进行等第归类,等第分为:优秀、良好、中等、及格和不及格,分别统计学生各个等第在取得的成绩中所占比重;步骤1.2:使用Pearsoncorrelation-basedsimilarity,对两个年级之间相同专业方向的学生成绩进行匹配,得到与待求班级成绩排名匹配数据的学生最相似的高年级学生班级成绩排名;步骤1.3:根据待求班级成绩排名匹配数据的学生最相似的高年级学生班级成绩排名,得到学生班级成绩排名匹配数据集。3.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤二中使用Lasso回归对预处理后的数据集进行预测处理的具体步骤如下:步骤2.1:对学生成绩数据进行预处理,将学生成绩处理为按学号、取得成绩中的学期学分最高成绩数据集和取得的学期班级成绩排名数据集所组成的新的数据集;步骤2.2:计算取得成绩中的学期学分最高成绩的平均成绩,使用Lasso回归,以学生的学期学分最高成绩数据集和取得的学期班级成绩排名数据集所组成的新的数据集为训练数据集,基于学生取得成绩中的学期学分最高成绩的平均成绩,得到学生班级成绩排名数据集。4.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤三中对学生班级成绩排名数据集和学生班级成绩排名匹配数据集进行加权值处理的具体步骤如下:步骤3.1:定义最终学生班级成绩排名预测数据结果集,加权值为WV;步骤3.2:通过对学生班级成绩排名匹配数据集和学生班级成绩排名数据集进行加权值处理,得到最终学生班级成绩排名预测数据结果集。5.根据权利要求4所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤3.1中加权值WV取值为0.5。6.根据权利要求1所述的一种基于Lasso回归的学生班级成绩排名预测方法,其特征在于,所述步骤一中使用Pearsoncorrelation-basedsimilarity对两个年级之间相同专业方向的学生成绩进行匹配的具体步骤如下:步骤101:定义YEAR为年级学生成绩数据集,YEAR={year1,year2,year3,year4},其中,yearh为第h年级中班级学生成绩数据集,yearh∈YEAR,h∈[1,4];步骤102:yearh={cla1,cla2,…,claclasum},其中,clasum为yearh中班级的个数,clai为第i班的学生成绩数据集,clai∈yearh,i∈[1,clasum];步骤103:clai={stu1,stu2,…,stustusum},其中,stusum为clai中学生成绩数据集个数,stuj为第j个学生的成绩数据集,stuj∈clai,j∈[1,stusum];步骤104:stuj={snoj,gradej,rankj},其中,snoj为stuj对应的学号,gradej为stuj对应的成绩数据集,rankj为stuj所取得的学期班级成绩排名数据集;步骤105:gradej={gra1,gra2,gra3,gra4,gra5},其中,gra1为stuj对应的成绩为优秀或大于等于90小于等于100在stuj取得成绩中的比例,gra2为stuj对应的成绩为良好或大于等于80小于90在stuj取得成绩中的比例,gra3为stuj对应的成绩为中等或大于等于70小于80在stuj取得成绩中的比例,gra4为stuj对应的成绩为及格或大于等于60小于70在stuj取得成绩中的比例,gra5为stuj对应的成绩为不及格或小于60在stuj取得成绩中的比例;步骤106:rankj={ran1,ran2,…,ranransum},其中,ransum为stuj所取得的学期班级成绩排名数据个数,ranp为stuj所取得的单学期班级成绩排名数据,ranp∈rankj,p∈[1,ransum];步骤107:定义学生班级成绩排名匹配数据集forecast={{sonp1,fore1},{sonp2,fore2},…,{sonpsopsum,foresnopsum}},其中,sonpsum为forecast中的学生人数,sonpm为第m个学生的学号,forem为学生学号为sonpm对应的期末班级成绩排名匹配值,{sonpm,forem}∈forecast,m∈[1,snopsum];步骤108:定义循环变量a,赋初始值为1,用于循环遍历YEAR;定义循环变量n,赋初始值1,用于循环遍历forecast;定义NULL为空;步骤109:如果a<=3,则跳转到步骤110,否则,跳转到步骤125;步骤110:第a年级中班级学生成绩数据集yeara={cla1,cla2,…,claclasum};定义循环变量b,赋初始值为1,用于循环遍历yeara;步骤111:如果b<=clasum,则跳转到步骤112,否则,跳转到步骤124;步骤112:第b班级成绩数据集clab={stu1,stu2,…,stustusum},定义循环变量c,赋初始值为1,用于循环遍历clab;步骤113:如果c<=stusum,则跳转到步骤114,否则,跳转到步骤123;步骤114:如果rankc=NULL,则跳转到步骤122,否则,跳转到步骤115;步骤115:从yeara+1中取数据集clak,clak为stuc所在班级clab高一年级相同专业班级的学生各科成绩所统计出的成绩数据集,k∈[1,clasum],clak∈yeara+1,clak={stu1,stu2,…,stustudentsum},其中,studentsum为clak中学生成绩数据集个数,stup={snop,gradep,rankp},stup∈clak,p∈[1,studentsum];定义循环变量q,赋初始值1,...
【专利技术属性】
技术研发人员:朱全银,唐娥,邵武杰,李翔,唐海波,高阳,钱凯,潘舒新,瞿学新,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。