【技术实现步骤摘要】
一种基于LightGBM的绩点预测方法
本专利技术属于机器学习领域,特别涉及一种基于LightGBM的绩点预测方法,主要用于对学生绩点进行预测,可用于学籍预警及学生画像。
技术介绍
数据挖掘是一门有着悠久历史的学科。它从早期的数据挖掘方法贝叶斯定理(18世纪)和回归分析(19世纪)开始,这些分析主要是识别数据中的模式。近年来,随着信息技术的发展,信息量已经积累到了一个惊人的程度,互联网、物联网、移动互联网等都在疯狂的产生大量数据。高校学生在学习和生活中会产生大量的数据,如成绩数据、消费数据、运动锻炼数据等,但是,在现阶段的大学管理中,每个部分的数据之间不存在关联,只是为了便于查找而保存。本设计通过数据预处理,将现阶段大学管理的数据整合成为可以用于数据挖掘的数据集,再用这些数据进行绩点的预测。朱全银等人已有的研究基础包括:WanliFeng.Researchofthemestatementextractionforchineseliteraturebasedonlexicalchain.InternationalJournalofMultimediaandUbiquitousEngineering,Vol.11,No.6(2016),pp.379-388;WanliFeng,YingLi,ShangbingGao,YunyangYan,JianxunXue.Anovelflameedgedetectionalgorithmviaanovelactivecontourmodel.InternationalJournalofHybridInformationTe ...
【技术保护点】
1.一种基于LightGBM的绩点预测方法,其特征在于,包括如下步骤:(1)对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理,进行数据筛选处理后得到学生行为习惯数据集StuHabitV1;(2)使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测,利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2;(3)使用Bagging对数据集StuHabitV2进行学生绩点的预测,对lightGBM调参以得到最优的模型。
【技术特征摘要】
1.一种基于LightGBM的绩点预测方法,其特征在于,包括如下步骤:(1)对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理,进行数据筛选处理后得到学生行为习惯数据集StuHabitV1;(2)使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测,利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2;(3)使用Bagging对数据集StuHabitV2进行学生绩点的预测,对lightGBM调参以得到最优的模型。2.根据权利要求1所述的一种基于LightGBM的绩点预测方法,其特征在于,所述步骤(1)中得到学生行为习惯数据集StuHabitV1的具体步骤如下:(1.1)整合从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据,将其导入数据库;(1.2)定义行为习惯数据集StuHabitV1,其中,StuHabitV1={XKBXK,XKBXK_count,ZYBXK,ZYBXK_count,SJBXK,SJBXK_count,TSBXK,TSBXK_count,SJHJ,SJHJ_count,TSXXK,TSXXK_count,ZYXXK,ZYXXK_count,XKXXK,XKXXK_count,GGJCK,GGJCK_count,XKJCK,XKJCK_count,ZYJCK,ZYJCK_count,SJXXK,SJXXK_count,ZYFXK,ZYFXK_count,TSK,TSK_count,youxiu,lianghao,zhongdeng,jige,bujige,kaoqin,breakfastcoef,lunchcoef,suppercoef,marketcoef,librarycoef,lifecoef,dxj,ydh};(1.3)从教务网数据库JWData中抽取所有的成绩数据GradeData并导出;(1.4)创建grade_init表,更新grade_init里的学年,学期字段,定义学期sessionA和sessionB;(1.5)更新成绩数据,对GradeData中成绩字段不是数值类型的记录进行预处理,其中,不及格更新为0,及格更新为65,中等更新为75,良好更新为85,优秀更新为95;(1.6)定义学生sessionB学期的总绩点StuGpa,向grade_init表中插入课程学分,课程绩点,课程性质字段;(1.7)从学生基础信息系统中导出课程信息数据KCXXData,包括选课课号,课程名称,学分,课程性质,将其导入kcxx_init表,更新grade_init里的学分、绩点字段;(1.8)对KCXXData中的异常数据做处理,删除KCXXData中学分字段为null的样本数据;(1.9)更新grade_init中绩点及课程性质,发现成绩字段存在一些脏数据如“缓考”、“合格”、“不合格”,清洗这些数据;(1.10)对绩点数据进行四舍五入处理,并将按公式计算为负数的数据设为0,利用每门课的绩点计算StuGpa;(1.11)找到两个数据都有的人,即在sessionA及sessionB两个学期都有考试成绩数据的人;(1.12)定义时间域TimeDomainA,TimeDomainB,TimeDomainC,日期域DateDomain,定义早餐消费breakfastcoef,根据学生财务系统数据,将在TimeDomainA之间的消费总数更新至breakfastcoef;(1.13)定义午餐消费lunchcoef,根据学生财务系统数据,将在TimeDomainB之间的消费总数更新至lunchcoef;(1.14)定义晚餐消费suppercoef,根据学生财务系统数据,将在TimeDomainC之间的消费总数更新至suppercoef;(1.15)定义超市消费marketcoef,根据学生财务系统数据,将在DateDomain期间消费描述为“商场消费”的消费总数更新至marketcoef;(1.16)定义图书馆消费librarycoef,根据学生财务系统数据,将在DateDomain期间消费描述为“图书馆消费”的消费总数更新至librarycoef;(1.17)定义生活消费lifecoef,根据学生财务系统数据,将在DateDomain期间消费描述为“生活消费”的消费总数更新至lifecoef;(1.18)定义sessionA学期的考勤次数kaoqin,是否获取单项奖dxj,是否运动会获奖ydh,利用学生基础信息系统更新kaoqin,dxj,ydh;(1.19)定义学科必修课加权平均分XKBXK、学科必修课课程数量XKBXK_count、专业必修课加权平均分ZYBXK、专业必修课课程数量ZYBXK_count、实践必修课加权平均分SJBXK、实践必修课课程数量SJBXK_count、通识必修课加权平均分TSBXK、通识必修课课程数量TSBXK_count、实践环节加权平均分SJHJ、实践环节课程数量SJHJ_count、通识选修课加权平均分TSXXK、通识选修课课程数量TSXXK_count、专业选修课加权平均分ZYXXK、专业选修课课程数量ZYXXK_count、学科选修课加权平均分XKXXK、学科选修课课程数量XKXXK_count、公共基础课加权平均分GGJCK、公共基础课课程数量GGJCK_count、学科基础课加权平均分XKJCK、学科基础课课程数量XKJCK_count、专业基础课加权平均分ZYJC...
【专利技术属性】
技术研发人员:朱全银,杨茂灿,唐娥,魏然,刘斌,蔡兵,刘畅,周淮,肖绍章,潘舒新,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。