基于C-LSTM的学业成绩预测方法技术

技术编号:25757788 阅读:27 留言:0更新日期:2020-09-25 21:06
本发明专利技术提出了一种基于深度学习技术的成绩分类预测方法,整体分为数据汇集、数据预处理、数据建模三个阶段。数据汇集阶段负责将学生的多源异构数据进行汇集,包括基础信息、一卡通消费数据、进入图书馆的记录数据、上网日志数据;数据预处理阶段主要对数据进行标准化、去重或合并操作。数据建模阶段则首先分别对不同的行为数据提取特征,然后联合所有的行为特征以及基础信息特征进行分类预测。本发明专利技术汇集学生的多源行为数据,经过数据预处理后,直接利用深度学习模型自主学习特征并进行成绩的分类预测,无需人工提取特征,预测分析的结果具有较高的准确率。

【技术实现步骤摘要】
基于C-LSTM的学业成绩预测方法
本专利技术涉及一种基于深度学习技术,利用学生的基础信息和校园行为数据对学业成绩进行分类预测的方法。该技术可以广泛应用于利用基本的先验知识和多源序列数据进行分类预测的场景,本专利技术涉及的是教育领域中学生成绩的分类。
技术介绍
教育部在2018年印发了《教育信息化2.0行动计划》,其中要求深化教育大数据应用,全面提升教育管理信息化支撑业务管理、政务服务、教学管理等工作的能力;大力推进智能教育,开展以学习者为中心的智能化教学支持环境建设,推动人工智能在教学、管理等方面的全流程应用,加快推动人才模式培养、教学方法改革等,实现公平而有质量的教育,促进人的全面发展。那么,如何落实该行动计划则是教育领域必须面对的挑战之一。为了应对该挑战,通过分析和挖掘教育相关的数据可以获取知识,以解决教育中的各类问题,即教育数据挖掘。常见的应用包括学生学业分析、学生行为建模、心理分析、社交关联分析以及异常行为分析等,其中,学业相关的应用得到了广泛的关注。研究表明,学业分析是一项复杂的工作,面临很多的困难:(1)影响成绩的因素有很本文档来自技高网...

【技术保护点】
1.基于C-LSTM的学业成绩预测方法,其特征在于包括以下步骤:/n1.1.数据采集/n本专利技术采集的数据如下:/n(1)学生的基础信息,包括人口统计学信息和学籍信息,采用

【技术特征摘要】
1.基于C-LSTM的学业成绩预测方法,其特征在于包括以下步骤:
1.1.数据采集
本发明采集的数据如下:
(1)学生的基础信息,包括人口统计学信息和学籍信息,采用表示第i个学生的基础信息,其中AI表示基础信息的属性数量。
(2)一卡通消费数据,包含日期、时间、地点、消费金额和消费类型五个属性,采用表示第i个学生的一卡通消费记录集合,其中,Ac表示一卡通消费记录的属性数,表示第i个学生的一卡通消费记录数,不同的学生具有不同的消费记录数。
(3)进入图书馆的记录数据,包含日期和时间两个属性,采用表示第i个学生的进入图书馆的记录,其中,AL表示图书馆门禁记录的属性数,表示第i个学生进入图书馆的次数。
(4)上网日志,包含日期、时间、网址域名、上网地点四个属性,采用表示第i个学生的上网日志,其中,AW表示上网日志的属性数,表示第i个学生的上网日志记录数。
(5)成绩数据包含课程成绩、课程学分两个属性,采集学生在一个学期内的所有课程的成绩信息,采用yi表示第i个学生的成绩等级。
基于上述标识,数据集D可以表示为{(C1,L1,W1,I1,y1),…,(Ci,Li,Wi,Ii,yi),…,(CN,LN,WN,IN,yN)},其中,N表示学生人数。
1.2.数据预处理
(1)学生基础信息预处理
对于学生基础信息中的名词属性采用经典的ONE-HOT编码方式进行编码;
对数值属性进行标准化处理,具体公式如下:



其中,x(i)是第i个样本的数值属性数据,是第i个样本的标准化的数值属性数据,μx是数值属性的样本均值,σx是数值属性的标准方差。
(2)一卡通消费数据预处理
第一步:按照校历将消费日期转化为整数,即每学期开学第一天对应的日期用数字1表示,开学第二天对应的日期用数字2表示,依次类推。
第二步:按照预设分钟间隔将一天24小时均匀划分为多个刻度,将每次消费的时间转化为对应的时间刻度值。
第三步:对于消费日期和时间转化后的消费数据,将消费日期、时间和地点相同的记录合并为一条记录,其消费金额等于被合并的消费记录的金额求和。
第三步:将消费地点进行ONE-HOT编码。
第四步:将转化后的消费日期和时间,以及合并后的消费金额按公式(1)进行标准化处理。
(3)进入图书馆的记录数据预处理。其预处理过程和一卡通消费数据的处理类似,具体如下:
第一步:按照校历将日期转化为从1开始的整数值。
第二步:将学生进入图书馆的具体时间按预设分钟间隔转化为数值刻度,对于同一天相同时间刻度内多次进入图书馆的情况仅保留一条记录。
第三步:将日期和时间刻度按公式(1)进行标准化处理。
(4)上网日志数据预处理。上网日志数据记录了学生的WEB浏览记录,具体处理步骤如下:
第一步:将网址简化为网址域名,统计所有域名的访问频次,并对域名按频次降序排列,然后从1开始依次给每个域名赋索引值,访问频次越高,索引值越低。然后将学生上网日志中的网址域名采用索引值表示。
第二步:将网页浏览日期按照校历转化为整数,浏览时间按预设分钟间隔转化为数值刻度。
第三步:对于日期、时间、上网地点以及网址索引值相同的多条记录进行去重操作,仅保留一条记录。
第四步:将上网地点进行ONE-HOT编码。
第五步:将上网日期、时间刻度按公式(1)进行标准化处理。
(5)成绩数据预处理。预处理后的成绩等级数据作为分类预测模型的标签,对模型进行训练。
第一步:将非百分制的成绩转化为百分制。通过和不通过的成绩类型分别对应60分和0分;满分是150分的成绩则按公式(2)进行转化;成绩是优、良、中、差的成绩则分别对应90分、80分、70分、60分。



第二步:采用公式(3)计算平均成绩。



第三步:将平均成绩划分为三段:0~65,66~95,95~100,并分别赋予类别等级0,1,2。
1.3.数据建模
(1)采用BorderlineS...

【专利技术属性】
技术研发人员:李小勇张勇尹宝才周菲菲
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1