融合学习行为特征的个性化知识追踪方法与系统技术方案

技术编号:31373934 阅读:19 留言:0更新日期:2021-12-15 11:05
本发明专利技术公开了一种融合学习行为特征的个性化知识追踪方法与系统,利用卷积神经网络提取学习行为和答题结果数据组成的复合向量中的有效特征;并通过降噪自编码器提取包含知识点在内的题目信息特征,最终将学习行为特征与题目信息特征相结合,经过LSTM网络和全连接层,获得学生对知识的掌握程度状态。在建模过程中,本发明专利技术融合了学生在学习过程中的一系列学习行为特征和习题本身及知识点的丰富信息,更准确地预测了每位学生的知识掌握程度。本发明专利技术可应用于混合式教学,为个性化教学提供量化依据。依据。依据。

【技术实现步骤摘要】
融合学习行为特征的个性化知识追踪方法与系统


[0001]本专利技术涉及混合式教学的
,尤其是指一种融合学习行为特征的个性化知识追踪方法与系统。

技术介绍

[0002]混合式教学是线上线下教学模式的深度融合。目前,信息技术的快速发展使混合式教学模式越来越多地应用到教学当中,混合式教学不仅保留师生面对面交流的机会,同时还最大限度突破了时空限制,学习者可以使用在线平台进行课前预习、翻转课堂、课后复习巩固等教学活动,这些教学活动让学生在教学平台上留下了痕迹,产生了学习行为数据。通常,教学平台会提供可视化窗口、日志等形式来展示这些数据的统计特征,但是缺乏对这些数据的深入分析和挖掘,无法为个性化学习提供直接的依据。
[0003]事实上,混合式教学的一大好处就是促进学生的个性化学习。如果可以利用上述数据为每一个学生出具量化的知识掌握报告,无疑可为个性化学习提供量化依据,减少盲目性。
[0004]知识追踪(Knowledge Tracing,KT)的任务是基于时间序列对学生的知识进行建模,以便能够准确地预测其在未来交互中的表现。目前主要的研究方向是将深度学习与知识追踪结合,经典的模型历史发展:2015年Chris Piech第一次将RNN引入知识追踪领域,实现了第一个深度知识追踪模型(Deep Knowledge Tracing,DKT)。在此基础上,相继出现了不少变体来提高模型的预测能力,如DKT

t、E2E

DKT、DKT

DSC。具有突破性的是2017年施行健等人提出了动态键值记忆网络(Dynamic Key

Value Memory Network,DKVMN),利用记忆增强型神经网络(Memory

Augment Neural Network,MANNs)代替RNN进行深度知识追踪。2019年Pandey针对知识追踪问题提出了自注意力知识追踪(Self

Attention Knowledge Tracing)模型,与RNN相比具有更好的长序列学习能力。尽管这些模型在技术上的改进达到了不错的效果,但绝大多数研究仅考虑了知识点和作答结果,忽略了学习行为表现对知识掌握的影响;其中少部分工作也仅是考虑到答题时的行为表现,如答题用时与是否查看解析等,所以知识追踪的预测精度还有待提升。学习行为表现没有被加入研究,作者认为其中的一个主要原因是在教育平台普遍发展之前,学生学习过程中的数据难以获取,导致学习状态对学习成效的影响难以被量化,从而限制了研究的推进。而如今教育平台的迅速发展,丰富的学习日志数据使得研究者有条件进行深入研究。

技术实现思路

[0005]本专利技术的第一目的在于克服现有的知识追踪模型和方法大部分仅考虑了题目和答题结果特征,而忽略了学生在学习过程中的学习行为特征对知识达成度的影响(实际上,这些行为特征更多地刻画了学生的学习态度、学习方法和付出的努力,直接影响了知识点的掌握),提出了一种融合学习行为特征的个性化知识追踪方法,可以预测学生对知识点的掌握情况,将学习行为特征融入到知识追踪中,综合了学习行为特征、习题文本以及知识点
对作答的影响,更准确地预测学生对知识点的掌握程度。
[0006]本专利技术的第二目的在于提供一种融合学习行为特征的个性化知识追踪系统。
[0007]本专利技术的第一目的通过下述技术方案实现:融合学习行为特征的个性化知识追踪方法,包括以下步骤:
[0008]S1、获取教学过程中学生的学习行为特征数据以及作答数据;其中,获取的学习行为特征数据包括学生在教学平台上的学习活动产生的数据;获取的作答数据包括学生作答的习题和作答结果;
[0009]S2、对获取到的学习行为特征数据和作答数据进行预处理,得到相应序列;其中,对于学习行为特征数据,需要先进行清洗,再进行标准归一化处理得到原始学习行为特征向量;对于作答数据,需要从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列;
[0010]S3、使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;将习题文本序列和习题相关知识点序列进行拼接,再输入到降噪自编码器,得到习题编码向量;
[0011]S4、对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量;
[0012]S5、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。
[0013]进一步,在步骤S1,从包括MOOC和雨课堂在内的在线教学平台中,分教学单元来获取学生的学习行为特征数据和作答数据;其中,以一个教学单元为一个阶段来统计学生学习行为特征。
[0014]进一步,所述步骤S2包括以下步骤:
[0015]S201、对学习行为特征数据进行清洗,将选取出来的特征缺失超过80%的学生个体剔除,部分学习行为特征根据原始学习行为特征进行简单数值运算,提取更能反应学生学生状态的学习行为特征;
[0016]S202、对清洗后的学习行为特征数据进行Max

Min归一化来保持数据平衡,得到每个学生的原始学习行为特征向量,记为F,表示如下:
[0017][0018]其中,n为学生个数,c为课程章节数,N*表示正整数,表示第n个学生在第c个单元中的学习行为向量,能够具体描述为{b1,b2,

,b
fk
},b
fk
表示第n个学生在第c个单元中的某一个学习行为特征,统计的学习行为特征总共有fk个;
[0019]提取学生的习题文本序列,记为Q;对作答数据按学生序号进行排序,然后将同一学生在同一单元中的答题记录按答题的先后顺序进行拼接成一条记录,然后使用一个标准化单元来统一数据的表现形式,形式化表示如下:
[0020][0021]其中,表示第n个学生做了第tn道习题,每个学生的答题量或每个单元的题量可能会不相同,分别记为(t1,t2,

,tn),tn表示第n个学生的答题量;
[0022]提取习题相关知识点序列,记为K;根据作答数据和提取到的学生习题作答系列以及习题与知识点间的对应关系,获取每个学生作答的习题相关知识点序列,形式化表示如下:
[0023][0024]其中,表示第n个题目中包含第sn个知识点,每个题目包含的知识点数量不同,分别记为(s1,s2,

,sn);
[0025]提取学生作答结果序列,记为A;根据作答数据和提取到的学生习题作答系列,获取每个学生的作答本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.融合学习行为特征的个性化知识追踪方法,其特征在于,包括以下步骤:S1、获取教学过程中学生的学习行为特征数据以及作答数据;其中,获取的学习行为特征数据包括学生在教学平台上的学习活动产生的数据;获取的作答数据包括学生作答的习题和作答结果;S2、对获取到的学习行为特征数据和作答数据进行预处理,得到相应序列;其中,对于学习行为特征数据,需要先进行清洗,再进行标准归一化处理得到原始学习行为特征向量;对于作答数据,需要从作答数据中分离提取得到习题文本序列、习题相关知识点序列以及作答结果序列;S3、使用独热编码规则对作答结果序列进行编码得到作答结果向量,将作答结果向量与原始学习行为特征向量构成二维向量,使用卷积神经网络模型进行学习,得到影响作答结果的学习行为特征向量;将习题文本序列和习题相关知识点序列进行拼接,再输入到降噪自编码器,得到习题编码向量;S4、对学习行为特征向量、习题编码向量和作答结果向量进行拼接,得到特征集合,然后对特征集合中的特征进行交叉、特征级联,最后通过自编码器对特征集合进行降维,得到答题记录向量;S5、将答题记录向量作为输入,训练基于LSTM的深度知识追踪模型,每个时刻输入一个答题记录向量,获得对应时刻的知识状态隐向量,再将得到的知识状态隐向量输入到一个全连接层来获取学生对知识点的掌握状态向量,实现个性化知识追踪。2.根据权利要求1所述的融合学习行为特征的个性化知识追踪方法,其特征在于,在步骤S1,从包括MOOC和雨课堂在内的在线教学平台中,分教学单元来获取学生的学习行为特征数据和作答数据;其中,以一个教学单元为一个阶段来统计学生学习行为特征。3.根据权利要求1所述的融合学习行为特征的个性化知识追踪方法,其特征在于,所述步骤S2包括以下步骤:S201、对学习行为特征数据进行清洗,将选取出来的特征缺失超过80%的学生个体剔除,部分学习行为特征根据原始学习行为特征进行简单数值运算,提取更能反应学生学生状态的学习行为特征;S202、对清洗后的学习行为特征数据进行Max

Min归一化来保持数据平衡,得到每个学生的原始学习行为特征向量,记为F,表示如下:n,c∈N
*
其中,n为学生个数,c为课程章节数,N*表示正整数,表示第n个学生在第c个单元中的学习行为向量,f
nc
能够具体描述为{b1,b2,

,b
fk
},b
fk
表示第n个学生在第c个单元中的某一个学习行为特征,统计的学习行为特征总共有fk个;提取学生的习题文本序列,记为Q;对作答数据按学生序号进行排序,然后将同一学生在同一单元中的答题记录按答题的先后顺序进行拼接成一条记录,然后使用一个标准化单元来统一数据的表现形式,形式化表示如下:tn∈N
*
其中,表示第n个学生做了第tn道习题,每个学生的答题量或每个单元的题量可能会不
相同,分别记为(t1,t2,

,tn),tn表示第n个学生的答题量;提取习题相关知识点序列,记为K;根据作答数据和提取到的学生习题作答系列以及习题与知识点间的对应关系,获取每个学生作答的习题相关知识点序列,形式化表示如下:sn∈N
*
其中,表示第n个题目中包含第sn个知识点,每个题目包含的知识点数量不同,分别记为(s1,s2,

,sn);提取学生作答结果序列,记为A;根据作答数据和提取到的学生习题作答系列,获取每个学生的作答结果序列,形式化表示如下:其中,表示第n个学生在第tn道习题上的作答结果,为正确或错误。4.根据权利要求1所述的融合学习行为特征的个性化知识追踪方法,其特征在于,所述步骤S3包括以下步骤:S301、使用独热编码规则对作答结果序列进行编码,1代表作答正确,0代表作答错误,得到作答结果向量,将学生学习行为特征和作答结果向量构造成二维向量,将习题文本序列和习题相关知识点序列进行序列拼接,再输入到降噪自编码器,得到习题编码向量,具体步骤如下:S3011、对习题文本进行预处理,包括标点与文字间隔、去除无意义字符,然后分词、去停用词,最后提取习题的关键词序列,即习题文本序列,将表示习题的关键词序列与相应习题的相关知识点序列进行拼接,得到习题特征序列;S3012、将得到的习题特征序列转换为位序编码,输入到嵌入层,或直接通过预训练词向量来初始化文本的嵌入层;假设嵌入层的维度为d,语料库中词汇量大小为m,则嵌入层将被随机初始化为大小d*m的矩阵,此时题目中所包含的词汇能够通过位序索引,得到相应的词向量,即嵌入向量;S3013、将词向量输入到降噪自编码器中,重构得到习题编码向量;降噪自编码器是由多层前馈神经网络构成,其中包括编码层、隐藏层和解码层,以隐藏层为界限,左边为编码器,右边为解码器,降噪自编码器经过解码器解码能够还原出文本的原始信息,在这个过程中,隐藏层通过使用更少的神经元来捕获文本的隐式描述,是文本更抽象的低维信息表示,在可解释性上分析,隐藏层提取了文本的主题信息;其中,每层前馈神经网络的权重是根据高斯分布进行随机初始化;所述编码层是用于将词向量输入映射到低维空间,具体表示为:h=f(w
T
x'+d)其中,h表示编码后的习题特征,x'表示词向量的有噪声版本,w
T
为编码层输入的权值矩阵,d为编码层偏置项,f(
·
)是一个element

wide映射函数,该映射函数包括恒等函数f(g)=g或sigmoid函数f(x)=1/(1+e
(

x)
);所述解码层是用于从噪声数据中重构原的输入数据,具体表示为:
其中,为经过降噪编码器重构后的习题编码向量,参数w'
T
为解码层输入的权值矩阵,d

为解码层偏置项,g(
·
)是一个element

wise映射函数;S302、基于卷积神经网络进行特征学习,卷积层使用多个不同大小的卷积核来提取多组局部特征,通过卷积操作后的输出为:co...

【专利技术属性】
技术研发人员:袁华王兰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1