当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于LightGBM的绩点预测方法技术

技术编号:19778433 阅读:26 留言:0更新日期:2018-12-15 11:21
本发明专利技术公开了一种基于LightGBM的绩点预测方法,本发明专利技术首先对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理,获得符合规范的能用于数据挖掘任务的学生行为习惯数据集StuHabitV1,再使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测,利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2,最后对lightGBM调参以得到最优的模型。本发明专利技术有效地提高了预测的准确程度。

【技术实现步骤摘要】
一种基于LightGBM的绩点预测方法
本专利技术属于机器学习领域,特别涉及一种基于LightGBM的绩点预测方法,主要用于对学生绩点进行预测,可用于学籍预警及学生画像。
技术介绍
数据挖掘是一门有着悠久历史的学科。它从早期的数据挖掘方法贝叶斯定理(18世纪)和回归分析(19世纪)开始,这些分析主要是识别数据中的模式。近年来,随着信息技术的发展,信息量已经积累到了一个惊人的程度,互联网、物联网、移动互联网等都在疯狂的产生大量数据。高校学生在学习和生活中会产生大量的数据,如成绩数据、消费数据、运动锻炼数据等,但是,在现阶段的大学管理中,每个部分的数据之间不存在关联,只是为了便于查找而保存。本设计通过数据预处理,将现阶段大学管理的数据整合成为可以用于数据挖掘的数据集,再用这些数据进行绩点的预测。朱全银等人已有的研究基础包括:WanliFeng.Researchofthemestatementextractionforchineseliteraturebasedonlexicalchain.InternationalJournalofMultimediaandUbiquitousEngineering,Vol.11,No.6(2016),pp.379-388;WanliFeng,YingLi,ShangbingGao,YunyangYan,JianxunXue.Anovelflameedgedetectionalgorithmviaanovelactivecontourmodel.InternationalJournalofHybridInformationTechnology,Vol.9,No.9(2016),pp.275-282;刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170;刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117;刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82;QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285;QuanyinZhu,SuqunCao,PeiZhou,YunyangYan,HongZhou.IntegratedPriceForecastbasedonDichotomyBackfillingandDisturbanceFactorAlgorithm.InternationalReviewonComputersandSoftware,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL201110422274.6,2013.01.02;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。决策树:决策树是一种基本的分类与回归方法。决策树的目的是选择最能够区分样本的特征对样本进行区分。因此,首先要解决的就是如何找到最能够区分样本的特征。目前业界大多数通过使用信息增益或者信息增益比来选择特征。在信息论中,设X是一个取值有限的离散随机变量,随机变量X的熵定义为:其中,pi=P(X=xi)。根据熵计算信息的算法如下。首先,计算数据集D的经验熵H(D)然后,计算特征A对数据集D的经验条件熵H(D|A)最后,计算信息增益g(D,A)=H(D)-H(D|A)(4)信息增益比公式为其中,在目前常用的决策树算法中,ID3选用信息增益作为选择最优特征的标准;C4.5使用信息增益比;CART树则使用Gini指数。随机森林:决策树有一个比较大的缺陷,当参数选择不够合理的情况下,决策树会出现过拟合的现象。随机森林的投票公式如下:其中,nc为类别的总个数。因此,就有了随机森林的诞生。随机森林使用多个决策树投票的方式来改善决策树。在产生决策树时,首先对样本进行重采样,选择a个样本,然后在样本的n个特征中随机选择k个特征,然后在a个样本,k个特征的情况下使用CART树来拟合。在得到森林之后,利用这些数进行投票。这种训练多个不同的模型再进行投票的方法叫做Bagging。Bagging在大数据竞赛中也有广泛的应用,多用于不同模型的集成。XGBoost:随机森林解决的决策树容易过拟合的问题,但是自身仍然存在一些问题。一方面是随机森林在默写噪音较大的问题上会过拟合,另一方面是如果一个特征划值较多,那么随机森林在这种数据上产生的权值相对不那么可信。和随机森林不同,XGBoost利用的是Boosting集成方法。因为被大量用于数据挖掘竞赛且取得很好的结果,所以很受欢迎。和普通的机器学习方法相比,XGBoost自身就可以对缺失值进行处理、将特征正则化。XGBoost创新性地对代价函数二阶展开来加速优化过程。LightGBM:和XGBoost相比,LightGBM速度更快,占用的资源更少,而取得的效果则和XGBoost差不多。除了这些,LightGBM还支持类型特征的输入,并且在划分数据集时自动支持验证集。LightGBM是一种新的梯度提升树框架,它具有高效率和可扩展性,可以支持GBDT,GBRT,GBM和MART等多种算法。由于其完全贪婪的树木生长方法和基于直方图的内存和计算优化,LightGBM比现有的梯度增强树实现要快几倍。它还具有基于DMTK框架的分布式培训的完整解决方案。在LightGBM出现后,迅速成为了数据挖掘竞赛选手的常用工具。在教育数据挖掘角领域,已有论文主要基于学习行为对指定课程成绩进行预测,如利用学生在网课上的学习行为,对网课成绩进行预测,另外使用的方法多为统计方面的回归分析,多为较简单的模型,很少涉及机器学习领域。传统的教育数据挖掘领域的预测多为成绩预测,更详细地,多为对MOOCs课程成绩的预测,涉及到的数据也只是与网课直接相关的数据,使用方法也较为简单,不适合直接在高校内使用。
技术实现思路
专利技术目的:针对上述存在的问题,本文档来自技高网
...

【技术保护点】
1.一种基于LightGBM的绩点预测方法,其特征在于,包括如下步骤:(1)对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理,进行数据筛选处理后得到学生行为习惯数据集StuHabitV1;(2)使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测,利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2;(3)使用Bagging对数据集StuHabitV2进行学生绩点的预测,对lightGBM调参以得到最优的模型。

【技术特征摘要】
1.一种基于LightGBM的绩点预测方法,其特征在于,包括如下步骤:(1)对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理,进行数据筛选处理后得到学生行为习惯数据集StuHabitV1;(2)使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测,利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2;(3)使用Bagging对数据集StuHabitV2进行学生绩点的预测,对lightGBM调参以得到最优的模型。2.根据权利要求1所述的一种基于LightGBM的绩点预测方法,其特征在于,所述步骤(1)中得到学生行为习惯数据集StuHabitV1的具体步骤如下:(1.1)整合从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据,将其导入数据库;(1.2)定义行为习惯数据集StuHabitV1,其中,StuHabitV1={XKBXK,XKBXK_count,ZYBXK,ZYBXK_count,SJBXK,SJBXK_count,TSBXK,TSBXK_count,SJHJ,SJHJ_count,TSXXK,TSXXK_count,ZYXXK,ZYXXK_count,XKXXK,XKXXK_count,GGJCK,GGJCK_count,XKJCK,XKJCK_count,ZYJCK,ZYJCK_count,SJXXK,SJXXK_count,ZYFXK,ZYFXK_count,TSK,TSK_count,youxiu,lianghao,zhongdeng,jige,bujige,kaoqin,breakfastcoef,lunchcoef,suppercoef,marketcoef,librarycoef,lifecoef,dxj,ydh};(1.3)从教务网数据库JWData中抽取所有的成绩数据GradeData并导出;(1.4)创建grade_init表,更新grade_init里的学年,学期字段,定义学期sessionA和sessionB;(1.5)更新成绩数据,对GradeData中成绩字段不是数值类型的记录进行预处理,其中,不及格更新为0,及格更新为65,中等更新为75,良好更新为85,优秀更新为95;(1.6)定义学生sessionB学期的总绩点StuGpa,向grade_init表中插入课程学分,课程绩点,课程性质字段;(1.7)从学生基础信息系统中导出课程信息数据KCXXData,包括选课课号,课程名称,学分,课程性质,将其导入kcxx_init表,更新grade_init里的学分、绩点字段;(1.8)对KCXXData中的异常数据做处理,删除KCXXData中学分字段为null的样本数据;(1.9)更新grade_init中绩点及课程性质,发现成绩字段存在一些脏数据如“缓考”、“合格”、“不合格”,清洗这些数据;(1.10)对绩点数据进行四舍五入处理,并将按公式计算为负数的数据设为0,利用每门课的绩点计算StuGpa;(1.11)找到两个数据都有的人,即在sessionA及sessionB两个学期都有考试成绩数据的人;(1.12)定义时间域TimeDomainA,TimeDomainB,TimeDomainC,日期域DateDomain,定义早餐消费breakfastcoef,根据学生财务系统数据,将在TimeDomainA之间的消费总数更新至breakfastcoef;(1.13)定义午餐消费lunchcoef,根据学生财务系统数据,将在TimeDomainB之间的消费总数更新至lunchcoef;(1.14)定义晚餐消费suppercoef,根据学生财务系统数据,将在TimeDomainC之间的消费总数更新至suppercoef;(1.15)定义超市消费marketcoef,根据学生财务系统数据,将在DateDomain期间消费描述为“商场消费”的消费总数更新至marketcoef;(1.16)定义图书馆消费librarycoef,根据学生财务系统数据,将在DateDomain期间消费描述为“图书馆消费”的消费总数更新至librarycoef;(1.17)定义生活消费lifecoef,根据学生财务系统数据,将在DateDomain期间消费描述为“生活消费”的消费总数更新至lifecoef;(1.18)定义sessionA学期的考勤次数kaoqin,是否获取单项奖dxj,是否运动会获奖ydh,利用学生基础信息系统更新kaoqin,dxj,ydh;(1.19)定义学科必修课加权平均分XKBXK、学科必修课课程数量XKBXK_count、专业必修课加权平均分ZYBXK、专业必修课课程数量ZYBXK_count、实践必修课加权平均分SJBXK、实践必修课课程数量SJBXK_count、通识必修课加权平均分TSBXK、通识必修课课程数量TSBXK_count、实践环节加权平均分SJHJ、实践环节课程数量SJHJ_count、通识选修课加权平均分TSXXK、通识选修课课程数量TSXXK_count、专业选修课加权平均分ZYXXK、专业选修课课程数量ZYXXK_count、学科选修课加权平均分XKXXK、学科选修课课程数量XKXXK_count、公共基础课加权平均分GGJCK、公共基础课课程数量GGJCK_count、学科基础课加权平均分XKJCK、学科基础课课程数量XKJCK_count、专业基础课加权平均分ZYJC...

【专利技术属性】
技术研发人员:朱全银杨茂灿唐娥魏然刘斌蔡兵刘畅周淮肖绍章潘舒新
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1