一种基于多模态数据融合的学生成绩预测方法技术

技术编号:38587460 阅读:16 留言:0更新日期:2023-08-26 23:28
本发明专利技术公开一种基于多模态数据融合的学生成绩预测方法,首先,从公开数据集中选择原始数据,根据排名使用不同群体学生的相应信息补充目标群体学生的不完整信息,并为数据集中的每位学生进行标注;再通过特征提取和数据预处理得到学生的原始群体行为张量和个体行为张量;然后将学生的原始行为张量送入相应的行为模块,即群体行为模块和个体行为模块,先提取相应行为的表示张量,再将其送入相应的分类模块产生对学生成绩进行预测的中间结果;最后将不同来源的中间结果通过加权相加的决策级融合技术进行融合,得到对学生成绩的最终预测结果。结果。结果。

【技术实现步骤摘要】
一种基于多模态数据融合的学生成绩预测方法


[0001]本专利技术属于学生成绩预测方法,尤其涉及一种决策级融合技术,通过融合不同群体学生的多源且不完整的信息实现对其未来成绩的预测。

技术介绍

[0002]教育数据挖掘旨在通过综合使用教育学、计算机科学、心理学和统计学等学科的理论和技术充分分析和挖掘教育相关数据,解决教育研究和教学实践中的各类问题
[1]。通过对大量学生相关信息进行数据挖掘,可以发现学生群体或个体的学习模式,了解学生的学习过程和特点。教育数据挖掘不仅可以帮助教师和教育管理者更好地了解和评估学生的学习情况,提高教育质量,还可以帮助学生更好地认识和调整自己的学习方式,提高学习效率。此外,教育数据挖掘还可以为教育政策制定和实施提供科学依据,为教育资源配置和优化提供有效参考,为教育创新和发展提供有力支撑。因此,教育数据挖掘对于促进教育改革和创新具有重要的价值和意义。
[0003]作为教育数据挖掘领域的重点研究方向之一,学生成绩预测任务一直是国内外研究的热点。学生成绩预测,又称学生学业表现预测,是指利用学生的相关信息预测其在未来的学业表现。学生成绩不仅可以衡量和展示出学生的学习情况,还是确定学生是否可以继续升学甚至深造的重要依据,更是反映高校教学质量的关键。因此,进行学生成绩预测方法的研究具有重要的研究价值与意义。
[0004]早期的研究主要集中在教育学和心理学领域,主要揭示影响学生成绩的因素,如五大人格因素、学习动机、社会人口学信息等。此类研究使用的数据主要来自学生的自我评估报告或调查问卷,存在数据规模偏小、主观性较强等问题。
[0005]现有的学生成绩预测方法主要分为两种:一是基于机器学习算法进行学生成绩预测,如关联规则挖掘、决策树规则、贝叶斯系列算法、支持向量机等;二是基于构建人工神经网络的方法对学生的行为信息、学习信息、上网信息、个人基本信息等进行建模预测学生成绩。相比于基于机器学习的算法需要手动进行特征工程,所选取的特征很大程度上依赖专家经验的问题,构建人工神经网络则不需要手动进行特征工程。因此,现有研究多采用基于深度学习构建人工神经网络的方式进行学生成绩预测,如卷积神经网络(Convolutional Neural Network,CNN)、长短期记忆网络(Long Short Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)等。
[0006]然而,现有方法还存在以下不足之处:
[0007](1)现有方法在进行学生成绩预测任务时,考虑到的学生信息不够全面,忽视了影响学生成绩的因素具有多样性,影响了学生成绩预测方法的性能。
[0008](2)现有方法在进行学生成绩预测任务时存在滞后性。部分方法所需的学生相关信息需要在课程开设后一段时间方可获得,如学生的阶段性检测结果、课堂出勤率等,无法及时对可能存在风险的学生做出干预。
[0009](3)现有方法常采用非公开数据集,样本规模偏小,缺乏泛化能力。仅针对一门课
程或者一个专业的学生信息进行挖掘得出的结论可能具有特殊性,无法推广到其他专业或课程中。
[0010]考虑到影响学生成绩的因素具有多样性,而现有公开数据集中包含的学生信息通常不够完整,因此,本文以融合不同群体学生的多源行为信息为出发点,通过补充目标群体学生的其他相关信息,构建学生的多源行为特征预测学生成绩。对于同一个描述对象,通过不同领域或视角获取到的数据称为多模态数据,并且把描述这些数据的每一个领域或视角叫做一个模态。本方法中提及的不完整数据是指收集到的学生信息不能完整的描述学生的校园和学习行为。由于不同数据从不同的粒度描述了学生的相关行为,无法直接对齐使用。决策级融合技术是在每个分类器独立完成决策的基础上,将多个分类器的决策结果进行融合,得到全局的最优决策。本文引入了决策级融合技术对学生的多源行为数据进行融合,提出了基于决策级融合的双路卷积神经网络模型,该模型使用卷积神经网络挖掘学生的多源行为信息,再利用决策级融合方式将多源行为信息进行融合预测学生成绩。

技术实现思路

[0011]本专利技术提供一种基于多模态数据融合的学生成绩预测方法,通过使用决策级融合技术融合学生的群体行为信息和个体行为信息预测学生成绩,相比于使用其他学生行为信息的成绩预测方法,本方法具有更好的效果。
[0012]为实现上述目的,本专利技术采用如下的技术方案:
[0013]一种基于多模态数据融合的学生成绩预测方法,包括以下步骤:
[0014]步骤1、从公开数据集中选择原始数据。首先,选取学生的群体行为信息中人数最多的专业9,这些信息反映了学生在校园内的一些消费行为和通勤行为,行为发生的地点有食堂、宿舍、超市、图书馆等14个地点。其次,选取学生的个体行为信息中人数较多的8门课程。这些信息反映了学生对学习资料的学习频次及个人基本信息。
[0015]步骤2、根据排名使用不同群体学生的相应信息补充目标群体学生的不完整信息。在群体行为信息中,以学生的成绩排名为依据通过正态分布的抽样方式选取训练集中的1000名学生和测试集中的900名学生刷卡记录作为本方法的实验数据。在个体行为信息中,以学生的课程成绩为依据通过正态分布的抽样方式选取训练集中每门课程的1000名学生和测试集中每门课程的900名学生作为本方法的原始数据。最后,将群体行为信息和个体行为信息按照学生专业和成绩排名相同的组合方式补充对应的不完整信息,得到包含多种行为信息的学生数据。
[0016]步骤3、对每位学生进行标注。根据学生的专业内排名或课程成绩排名将学生分为两类,分别表示为0和1。其中,0表示学生属于非风险学生,1表示学生有风险。
[0017]步骤4、对包含学生多源信息的数据进行特征提取和数据预处理。对于群体行为,提取学生在校园内的14个不同场所的活动频次及学生是否在当天的不同时段发生相应行为的离散值;对于个体行为,提取学生对20种不同的学习资料的学习频次和学生的个人基本信息的独热编码表示。然后得到学生的原始特征张量,并对特征张量中的频次数据进行标准化。
[0018]步骤5、通过群体行为模块和个体行为模块分别产生该行为下学生成绩预测的中间结果。在每个模块中,首先使用卷积层对学生原始的行为张量进行特征提取,再将提取到
的学生特征表示张量送入相应的分类模块,得到该行为下对学生成绩进行预测的中间结果。
[0019]步骤6、使用决策级融合技术对不同行为信息的中间预测结果进行融合,得到最终的成绩预测结果。决策级融合技术可以融合多个分类器的决策结果,得到全局最优决策。本方法中使用加权相加的决策级融合技术来融合学生的成绩预测中间结果。
[0020]步骤7、对比不同方法对学生成绩预测的实验效果验证本方法的有效性。
[0021]步骤8、对比不同的超参数设置,验证本方法对不同搜索空间的敏感度。
[0022]步骤9、通过设置包含不同时段的学生记录,验证本方法在早期进行学生成绩预测的有效性。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态数据融合的学生成绩预测方法,其特征在于,包括以下步骤:步骤1、从公开数据集中选择原始数据;首先,选取学生的群体行为信息中人数最多的专业,群体行为信息反映学生在校园内的一些消费行为和通勤行为,行为发生的地点有食堂、宿舍、超市、图书馆;其次,选取学生的个体行为信息中人数较多的8门课程;个体行为信息反映学生对学习资料的学习频次及个人基本信息;步骤2、根据排名使用不同群体学生的相应信息补充目标群体学生的不完整信息;在群体行为信息中,以学生的成绩排名为依据通过正态分布的抽样方式选取训练集中的1000名学生和测试集中的900名学生刷卡记录作为本方法的实验数据;在个体行为信息中,以学生的课程成绩为依据通过正态分布的抽样方式选取训练集中每门课程的1000名学生和测试集中每门课程的900名学生作为本方法的原始数据;将群体行为信息和个体行为信息按照学生专业和成绩排名相同的组合方式补充相应的不完整信息,得到包含多种行为信息的学生数据;步骤3、对每位学生进行标注;根据学生的专业内排名或课程成绩排名将学生分为两类,分别表示为0和1;其中,0表示学生属于非风险学生,1表示学生有风险;步骤4、对包含学生多源信息的数据进行特征提取和数据预处理;对于群体行为,提取学生在校园内的14个不同场所的活动频次及学生是否在当天的不同时段发生相应行为的离散值;对于个体行为,提取学生对20种不同的学习资料的访问频次和学生的个人基本信息的独热编码表示;然后得到学生的原始特征张量,并对特征张量中的频次数据进行标准化;步骤5、通过群体行为模块和个体行为模块分别产生该行为下学生成绩预测的中间结果;在每个模块中,首先使用卷积层对学生原始的行为张量进行特征提取,再将提取到的学生特征表示张量送入相应的分类模块,得到该行为下对学生成绩进行预测的中间结果;步骤6、使用决策级融合技术对不同行为信息的中间预测结果进行融合,得到最终的成绩预测结果;决策级融合技术可以融合多个分类器的决策结果,得到全局最优决策;使用加权相加的决策级融合技术来融合学生的成绩预测中间结果;步骤7、对比不同方法对学生成绩预测的实验效果验证本方法的有效性;步骤8、对比不同的超参数设置,验证本方法对不同搜索空间的敏感度;步骤9、通过设置包含不同时段的学生记录,验证本方法在早期进行学生成绩预测的有效性;步骤10、通过t

SNE算法对学习到的特征张量进行可视化,验证本方法提取到的学生特征张量具有更强的表现能力;步骤11、通过对未知学生进行成绩预测,验证本方法的泛化能力。2.如权利要求1所述的基于多模态数据融合的学生成绩预测方法,其特征在于,步骤4具体为:本方法使用S=(S1,s2,
……
S
n
)表示所有学生的集合,Y=(y1,y2,
……
,y
n
)表示所有学生的真实标签,表示所有学生的预测结果;对于每个学生S
i
,本方法使用二元组(x
Group
(i),x
Indiv
(i))来分别代表群体行为序列和个体行为序列,使用y
i...

【专利技术属性】
技术研发人员:赖英旭张亚薇庄俊玺刘静靳晓宁
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1