一种基于多元概念注意力模型的知识追踪方法及系统技术方案

技术编号:30020892 阅读:20 留言:0更新日期:2021-09-11 06:41
本发明专利技术公开了一种基于多元概念注意力模型的知识追踪方法及系统,该方法包括以下步骤:获取学习者的历史习题回答的交互序列;建立多元概念注意力模型,根据学习者的习题键索引将历史习题回答的交互序列划分为多个不同大小的注意力模块;建立多元语义注意力模型,对上下文的内容和注意力模块数据进行整合;通过注意力分类层计算待测试的习题键索引的知识概念分布权重;将分类注意力分数值和历史回答向量相乘,获取学习者对新习题回答的特征分数值;根据特征分数值和待测试的习题键索引计算学习者对当前题目正确回答的概率,遍历与当前知识状态相似的历史习题,更新知识状态,从而准确的构建适合学习者的学习路线。而准确的构建适合学习者的学习路线。而准确的构建适合学习者的学习路线。

【技术实现步骤摘要】
一种基于多元概念注意力模型的知识追踪方法及系统


[0001]本专利技术属于教育数据挖掘和知识追踪领域,具体涉及一种基于多元概念注意力模型的知识追踪方法及系统。

技术介绍

[0002]随着大数据技术的迅猛发展,教育领域也引入了数据挖掘技术。尤其在互联网快速扩张的今天,在线学习平台被越来越多人关注和使用。知识追踪作为在线学习教育系统的重要组成部分,一直是众多研究的焦点。根据学习者的历史答题序列,抽象出习题的知识点和概念,知识追踪对学习者和习题进行交互建模,掌握不同时期学习者的知识状态,从而预测其对新习题的回答情况,以便对学习者个性化地学习。
[0003]传统的知识追踪方法大多只评价习题之间的相关性,而没有注意到涉及多个概念的习题之间的关联。知识追踪领域有两个经典的模型。以贝叶斯知识追踪(BayesianKnowledgeTracing,BKT)为代表的模型,其使用隐马尔可夫模型(Hidden Markov Model)建模,模拟学习者对概念的两种知识状态,即掌握和未掌握状态。采用与学习者是否正确回答相关的先验概率,并且利用四个总要参数来更新学习者的知识状态。该模型的优点是一定程度上模拟了历史学习过程中存在的相关性;但不足是四个重要参数数值是随机生成,没有包含学习者的学习信息。
[0004]深度学习模型(Deep Learning Model),它使用了循环神经网络(Recurrent Neural Network,RNN)构建高维度隐藏状态来模拟带有记忆性的学习者学习过程,进而预测学习者的答题表现。典型代表为深度知识追踪(Deep Knowledge Tracing,DKT)。本模型的优势是,神经网络易训练且收敛快;不足是模型存在解释性差和学习者知识状态模拟不佳的问题,理论解释方面还有待提高。
[0005]可见,现有技术由于理论和技术层面存在的问题,无法获得较好的知识追踪模型,进而影响知识追踪效果。针对上述的缺陷,亟需一种新的知识追踪方法或模型来改进需求,进而完善知识追踪的应用。

技术实现思路

[0006]本专利技术的目的在于针对现有技术的不足,提供一种基于多元概念注意力模型的知识追踪方法及系统,可以全方面处理多元和复杂概念的习题,从而很好地将多领域的问题迁移到新出现的习题上,实现学习者对待测试题认知状态的检测,并且预测学习者知识状态掌握程度。
[0007]本专利技术的目的是通过以下技术方案来实现的:
[0008]一方面,本申请提出一种基于多元概念注意力模型的知识追踪方法,该方法包括:
[0009](1)获取学习者的历史习题回答的交互序列;所述交互序列包括习题标签和回答情况;所述习题标签包含习题键索引k和知识概念索引c;根据时间轴顺序,将历史习题回答的交互序列与知识组件组合成一个含有知识状态的序列;
[0010](2)建立多元概念注意力模型;
[0011]根据学习者的习题键索引k将历史习题回答的交互序列X划分为M个不同大小的注意力模块;每个注意力模块中知识概念索引c和习题键索引k做注意力映射,得到数据单元的习题键索引;结合注意力模块中每个数据单元的注意力分数值,得到每个注意力模块的输出数据;
[0012](3)建立多元语义注意力模型;
[0013]所述多元语义注意力模型包括依次连接的输入层、情感意识注意层和长短期记忆网络;
[0014]将每个注意力模块的输出数据Y
m
通过输入层传入情感意识注意层;所述情感意识注意层中,利用上下文的内容和内容语义关系计算上下文组块数据co
t

[0015]将Y
m
和co
t
按矩阵行拼接构成第m个注意力模块的注意力特征向量in
t

[0016]将in
t
输入长短期记忆网络,在长短期记忆网络中整合上下文组块之间的相似性;所述长短期记忆网络由记忆元组、激活函数和门控单元组成;所述门控单元用于更新co
t
,从而对学习者的知识状态进行追踪;
[0017]将更新后的co
t
与Y
m
拼接构成第m个注意力模块的最终注意力特征向量
[0018](4)将步骤(3)得到的传入注意力分类层,所述注意力分类层将和待测试的习题键索引进行范围点积,然后通过全连接层和Softmax激活函数归一化计算待测试的习题键索引的知识概念分布权重,用分类注意力分数值表示;
[0019](5)将分类注意力分数值和历史回答向量相乘,获取学习者对新习题回答的特征分数值;
[0020](6)根据特征分数值和待测试的习题键索引计算学习者对当前题目正确回答的概率,遍历与当前知识状态相似的历史习题,更新知识状态。
[0021]进一步地,所述步骤(2)中,第m个注意力模块的输出数据Y
m
表示为:
[0022][0023]其中m
*
为第m个注意力模块的数据单元总数,k
m,i
为第m个注意力模块的第i个数据单元的习题键索引,为第m个注意力模块的第i个数据单元的注意力分数值;
[0024][0025]其中为第m个注意力模块的权值矩阵W
m
和第m个注意力模块的第i个数据单元的习题键索引k
m,i
的交互值,其表示为:
[0026][0027]进一步地,所述步骤(3)中,上下文组块数据co
t
表示为:
[0028][0029]其中N为上下文组块的总数,k
t,i
为第t时刻第i个上下文组块的习题键索引,α
t,i

第t时刻第i个上下文组块的注意力分数值;
[0030][0031]其中h
t
‑1是长短期记忆网络的隐含状态,W
ih
是长短期记忆网络中隐含状态h
t
‑1和第i个注意力分数值连接的权值矩阵,W
i
是k
t,i
的注意力分数值的权值矩阵,表示矩阵按行拼接的运算。
[0032]进一步地,所述步骤(3)中,通过门控单元更新上下文组块数据co
t
,表示为:
[0033]co
t
=f
t

co
t
‑1+i
t

g
t
[0034][0035]h
t
=o
t

Tanh(co
t
)
[0036]其中f
t
是遗忘门,控制知识概念的遗忘情况;i
t
是输入门,控制知识概念的记忆情况;h
t
是长短期记忆网络中第t个隐含状态;g
t
是注意力特征向量in
t
中保存下来有效的数据,表示经过情感意识注意层保留下来的知识概念;W...

【技术保护点】

【技术特征摘要】
1.一种基于多元概念注意力模型的知识追踪方法,其特征在于,该方法包括:(1)获取学习者的历史习题回答的交互序列;所述交互序列包括习题标签和回答情况;所述习题标签包含习题键索引k和知识概念索引c;根据时间轴顺序,将历史习题回答的交互序列与知识组件组合成一个含有知识状态的序列;(2)建立多元概念注意力模型;根据学习者的习题键索引k将历史习题回答的交互序列X划分为M个不同大小的注意力模块;每个注意力模块中知识概念索引c和习题键索引k做注意力映射,得到数据单元的习题键索引;结合注意力模块中每个数据单元的注意力分数值,得到每个注意力模块的输出数据;(3)建立多元语义注意力模型;所述多元语义注意力模型包括依次连接的输入层、情感意识注意层和长短期记忆网络;将每个注意力模块的输出数据Y
m
通过输入层传入情感意识注意层;所述情感意识注意层中,利用上下文的内容和内容语义关系计算上下文组块数据co
t
;将Y
m
和co
t
按矩阵行拼接构成第m个注意力模块的注意力特征向量in
t
;将in
t
输入长短期记忆网络,在长短期记忆网络中整合上下文组块之间的相似性;所述长短期记忆网络由记忆元组、激活函数和门控单元组成;所述门控单元用于更新co
t
,从而对学习者的知识状态进行追踪;将更新后的co
t
与Y
m
拼接构成第m个注意力模块的最终注意力特征向量(4)将步骤(3)得到的传入注意力分类层,所述注意力分类层将和待测试的习题键索引进行范围点积,然后通过全连接层和Softmax激活函数归一化计算待测试的习题键索引的知识概念分布权重,用分类注意力分数值表示;(5)将分类注意力分数值和历史回答向量相乘,获取学习者对新习题回答的特征分数值;(6)根据特征分数值和待测试的习题键索引计算学习者对当前题目正确回答的概率,遍历与当前知识状态相似的历史习题,更新知识状态。2.根据权利要求1所述的一种基于多元概念注意力模型的知识追踪方法,其特征在于,所述步骤(2)中,第m个注意力模块的输出数据Y
m
表示为:其中m
*
为第m个注意力模块的数据单元总数,k
m,i
为第m个注意力模块的第i个数据单元的习题键索引,为第m个注意力模块的第i个数据单元的注意力分数值;其中为第m个注意力模块的权值矩阵W
m
和第m个注意力模块的第i个数据单元的习题键索引k
m,i
的交互值,其表示为:
3.根据权利要求1所述的一种基于多元概念注意力模型的知识追踪方法,其特征在于,所述步骤(3)中,上下文组块数据co
t
表示为:其中N为上下文组块的总数,k
t,i
为第t时刻第i个上下文组块的习题键索引,α
t,i
为第t时刻第i个上下文组块的注意力分数值;其中h
t
‑1是长短期记忆网络的隐含状态,是长短期记忆网络中隐含状态h
t
‑1和第i个注意力分数值连接的权值矩阵,W
i
是k
t,i
的注意力分数值的权值矩阵,表示矩阵按行拼接的运算。4.根据权利要求1所述的一种基于多元概念注意力模型的知识追踪方法,其特征在于,所述步骤(3)中,通过门控单元更新上下文组块数据co
t
,表示为:co
t
=f
t

co
t
‑1+i
t

g
t
h
t
=o
t

Tanh(co
t
)其中f
t
是遗忘门,控制知识概念的遗忘情况;i
t
是输入门,控制知识概念的记忆情况;h
t
是长短期记忆网络中第t个隐含状态;g
t
是注意力特征向量in
t
中保存下来有效的数据,表示经过情感意识注意层保留下来的知识概念;W
g
是长短期记忆网络的隐含状态h
t
‑1和注意力特征向量in
t
按行拼接的权值矩阵;o
t
是输出门,控制记忆元组有效知识概念的输出;

表示矩阵的基本积运算;更新后的co
t
用于多元语义注意力模型中特征信息的预测和对下一时刻注意力映射的指示。5.根据权利要求1所述的一种基于多元概念注意力模型的知识追踪方法,其特征在于,在多元语义注意力模型训练过程中,利用交叉熵损失函数来评估模型收敛程度,运用反向传播算法对模型参数进行训练,直至整个模型网络收敛;依据学习者t时刻的回答情况,学习者对当前题目正确回答的概率采用交叉熵损失函数L为:其中r
t
表示学习者答题的真实结果数据;p

【专利技术属性】
技术研发人员:徐斌吴豪
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1