一种基于LightGBM的绩点预测方法技术

技术编号：19778433 阅读：26 留言：0更新日期：2018-12-15 11:21

本发明专利技术公开了一种基于LightGBM的绩点预测方法，本发明专利技术首先对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理，获得符合规范的能用于数据挖掘任务的学生行为习惯数据集StuHabitV1，再使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测，利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2，最后对lightGBM调参以得到最优的模型。本发明专利技术有效地提高了预测的准确程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LightGBM的绩点预测方法
本专利技术属于机器学习领域，特别涉及一种基于LightGBM的绩点预测方法，主要用于对学生绩点进行预测，可用于学籍预警及学生画像。
技术介绍
数据挖掘是一门有着悠久历史的学科。它从早期的数据挖掘方法贝叶斯定理(18世纪)和回归分析(19世纪)开始，这些分析主要是识别数据中的模式。近年来，随着信息技术的发展，信息量已经积累到了一个惊人的程度，互联网、物联网、移动互联网等都在疯狂的产生大量数据。高校学生在学习和生活中会产生大量的数据，如成绩数据、消费数据、运动锻炼数据等，但是，在现阶段的大学管理中，每个部分的数据之间不存在关联，只是为了便于查找而保存。本设计通过数据预处理，将现阶段大学管理的数据整合成为可以用于数据挖掘的数据集，再用这些数据进行绩点的预测。朱全银等人已有的研究基础包括：WanliFeng.Researchofthemestatementextractionforchineseliteraturebasedonlexicalchain.InternationalJournalofMultimediaandUbiquitousEngineering,Vol.11,No.6(2016),pp.379-388；WanliFeng,YingLi,ShangbingGao,YunyangYan,JianxunXue.Anovelflameedgedetectionalgorithmviaanovelactivecontourmodel.InternationalJournalofHybridInformationTe...

【技术保护点】
1.一种基于LightGBM的绩点预测方法，其特征在于，包括如下步骤：(1)对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理，进行数据筛选处理后得到学生行为习惯数据集StuHabitV1；(2)使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测，利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2；(3)使用Bagging对数据集StuHabitV2进行学生绩点的预测，对lightGBM调参以得到最优的模型。

【技术特征摘要】
1.一种基于LightGBM的绩点预测方法，其特征在于，包括如下步骤：(1)对从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据进行ETL处理，进行数据筛选处理后得到学生行为习惯数据集StuHabitV1；(2)使用XGBoost及随机森林对数据集StuHabitV1进行学生绩点的预测，利用这两个算法的互信息对StuHabitV1进行特征选择得到StuHabitV2；(3)使用Bagging对数据集StuHabitV2进行学生绩点的预测，对lightGBM调参以得到最优的模型。2.根据权利要求1所述的一种基于LightGBM的绩点预测方法，其特征在于，所述步骤(1)中得到学生行为习惯数据集StuHabitV1的具体步骤如下：(1.1)整合从教务网、招生就业系统、学生基础信息系统、学生财务系统获取到的数据，将其导入数据库；(1.2)定义行为习惯数据集StuHabitV1，其中，StuHabitV1＝{XKBXK,XKBXK_count,ZYBXK,ZYBXK_count,SJBXK,SJBXK_count,TSBXK,TSBXK_count,SJHJ,SJHJ_count,TSXXK,TSXXK_count,ZYXXK,ZYXXK_count,XKXXK,XKXXK_count,GGJCK,GGJCK_count,XKJCK,XKJCK_count,ZYJCK,ZYJCK_count,SJXXK,SJXXK_count,ZYFXK,ZYFXK_count,TSK,TSK_count,youxiu,lianghao,zhongdeng,jige,bujige,kaoqin,breakfastcoef,lunchcoef,suppercoef,marketcoef,librarycoef,lifecoef,dxj,ydh}；(1.3)从教务网数据库JWData中抽取所有的成绩数据GradeData并导出；(1.4)创建grade_init表，更新grade_init里的学年,学期字段，定义学期sessionA和sessionB；(1.5)更新成绩数据，对GradeData中成绩字段不是数值类型的记录进行预处理，其中，不及格更新为0，及格更新为65，中等更新为75，良好更新为85，优秀更新为95；(1.6)定义学生sessionB学期的总绩点StuGpa，向grade_init表中插入课程学分，课程绩点，课程性质字段；(1.7)从学生基础信息系统中导出课程信息数据KCXXData，包括选课课号,课程名称,学分,课程性质，将其导入kcxx_init表，更新grade_init里的学分、绩点字段；(1.8)对KCXXData中的异常数据做处理，删除KCXXData中学分字段为null的样本数据；(1.9)更新grade_init中绩点及课程性质，发现成绩字段存在一些脏数据如“缓考”、“合格”、“不合格”，清洗这些数据；(1.10)对绩点数据进行四舍五入处理，并将按公式计算为负数的数据设为0，利用每门课的绩点计算StuGpa；(1.11)找到两个数据都有的人，即在sessionA及sessionB两个学期都有考试成绩数据的人；(1.12)定义时间域TimeDomainA,TimeDomainB,TimeDomainC，日期域DateDomain，定义早餐消费breakfastcoef，根据学生财务系统数据，将在TimeDomainA之间的消费总数更新至breakfastcoef；(1.13)定义午餐消费lunchcoef，根据学生财务系统数据，将在TimeDomainB之间的消费总数更新至lunchcoef；(1.14)定义晚餐消费suppercoef，根据学生财务系统数据，将在TimeDomainC之间的消费总数更新至suppercoef；(1.15)定义超市消费marketcoef，根据学生财务系统数据，将在DateDomain期间消费描述为“商场消费”的消费总数更新至marketcoef；(1.16)定义图书馆消费librarycoef，根据学生财务系统数据，将在DateDomain期间消费描述为“图书馆消费”的消费总数更新至librarycoef；(1.17)定义生活消费lifecoef，根据学生财务系统数据，将在DateDomain期间消费描述为“生活消费”的消费总数更新至lifecoef；(1.18)定义sessionA学期的考勤次数kaoqin，是否获取单项奖dxj，是否运动会获奖ydh，利用学生基础信息系统更新kaoqin,dxj,ydh；(1.19)定义学科必修课加权平均分XKBXK、学科必修课课程数量XKBXK_count、专业必修课加权平均分ZYBXK、专业必修课课程数量ZYBXK_count、实践必修课加权平均分SJBXK、实践必修课课程数量SJBXK_count、通识必修课加权平均分TSBXK、通识必修课课程数量TSBXK_count、实践环节加权平均分SJHJ、实践环节课程数量SJHJ_count、通识选修课加权平均分TSXXK、通识选修课课程数量TSXXK_count、专业选修课加权平均分ZYXXK、专业选修课课程数量ZYXXK_count、学科选修课加权平均分XKXXK、学科选修课课程数量XKXXK_count、公共基础课加权平均分GGJCK、公共基础课课程数量GGJCK_count、学科基础课加权平均分XKJCK、学科基础课课程数量XKJCK_count、专业基础课加权平均分ZYJC...

【专利技术属性】
技术研发人员：朱全银，杨茂灿，唐娥，魏然，刘斌，蔡兵，刘畅，周淮，肖绍章，潘舒新，
申请(专利权)人：淮阴工学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人