用于在线学习平台的多任务注意力知识追踪方法及系统技术方案

技术编号:37453566 阅读:11 留言:0更新日期:2023-05-06 09:25
本发明专利技术公开了一种用于在线学习平台的多任务注意力知识追踪方法及系统,本发明专利技术包括根据历史交互序列提取当前时间步的不平衡感知注意力权重基于练习标签e

【技术实现步骤摘要】
用于在线学习平台的多任务注意力知识追踪方法及系统


[0001]本专利技术涉及在线学习(e

learning)平台
,具体涉及一种用于在线学习平台的多任务注意力知识追踪方法及系统。

技术介绍

[0002]随着电子学习的普及,学习者可以在不离开家的情况下通过自学来获取知识。为了为学习者制定个性化的学习计划,在线学习平台需要准确了解和掌握学习者各个阶段的知识水平。知识追踪(KT)是在线学习中的一项重要任务,其目标是通过分析学习者的学习历史数据来建模学习者的知识状态(KS),即学习者对技能(或概念/知识成分)的掌握程度。在在线学习平台上,学习者可以通过完成特定的练习来学习相关技能(例如,如果“加法”是一项技能,那么“1+1”就是它的练习),平台基于知识追踪模型追踪学习者关于学习技能的知识状态KS。最后,该平台通过何时停止策略来确定学习者是否掌握了这些技能。
[0003]近年来,基于深度学习的知识追踪方法(Deep Learning

based Knowledge Tracing,DLKT)凭借其更强的表示能力,表现出优于传统模型的性能,如贝叶斯知识追踪,潜在因素模型和项目响应理论。例如,深度知识追踪(Deep Knowledge Tracing,DKT),动态键值记忆网络(Dynamic Key

Value Memory Networks,DKVMN),自注意知识追踪(SAKT)。为了提高DLKT预测未来学习者响应的能力,我们挖掘了多个与学习相关的因素(如表现、遗忘、练习文本等),并将其整合到具体模型中,如练习感知知识追踪框架,情境感知的注意性知识追踪(Attentive Knowledge Tracing,AKT),关系感知的自注意力知识追踪(Relation

aware self

attention for Knowledge Tracing,RKT)。由于练习数据的稀疏性问题,早期的DLKT模型使用技能代替练习作为模型输入以避免模型的过度参数化。为了进一步提高DLKT的性能,多种与学习相关因素(例如:练习、表现、遗忘和练习文本等)被挖掘并集成到具体模型中。然而,现有的知识追踪模型通常只利用了提交练习答案后一刀切(正确或错误)的响应反馈,从而使得这些模型无法更加精准地捕捉每次交互后的知识增长。
[0004]学习记录是学习者知识水平的被动反映。相反,学习者的反馈提供了学习者对自己的知识状态的主动了解,这反过来又为学习者的学习情况提供了直接和真实的指标。然而,利用与学习者反馈相关的训练数据的知识追踪模型很少,尽管它可以在修正知识追踪结果中发挥重要作用。Wang等人指出,反馈在学习中起着积极的作用,它可以促进在基于练习的学习中的迁移和记忆。直觉上,精准的反馈可以帮助模型更好地捕捉学习者在每次学习交互后的知识增长,以及更准确地区分练习的难易程度,而这些正是知识追踪模型之所以取得优异表现的关键。
[0005]在交互式在线学习平台中,学习者尝试一些练习,但甚至不需要看其他练习。每个学习者可以多次尝试一个练习,并且可以在连续尝试之间学习。当学习者经过多次尝试仍无法解决某项练习时,他们通常会寻求帮助。许多交互式在线学习平台中的一个常见学习辅助工具是在交互过程中获取提示的选项
]。通过对学习活动的抽象化和简化,本文注意到
两种更能直观反映练习困难度的行为反馈:提示使用次数和尝试次数。图1结合对在线学习数据的分析给出了这两种反馈的可视化描述,其中子图(a)是简化后的学习交互过程,子图(b)显示了从真实数据中提取的部分练习记录。根据图1中的子图(a),一般的在线学习交互过程可以概括为以下三种情况:情况1(

):在一次交互过程中,无论练习的答案响应正确与否,只尝试一次就停止交互。这种情况可以从图1的右子图的练习标签:733和752所在记录中得到印证。在这种情况下,无论学习者关于练习的答案响应正确与否误,都只能说明他们知识状态与练习困难度之间的大概匹配程度。情况2(
①…①
):在一次交互过程中,第一次尝试做错了,然后多次尝试直到正确,或者始终错误,然后最终放弃。这种情况可以从图1的右子图的练习标签:821和826所在记录中得到印证。在这种情况下,学习者尝试的次数越多可能意味着练习对他们来说越困难。情况3(
①②①…②①
):在一次交互过程中,在情况2中的多次尝试中伴随着一次或多次提示使用动作(整个提示通常由一个或多个步骤组成)。这种情况可以从图1的右子图的练习标签:824、822和825所在记录中得到印证。在这种情况下,学习者尝试和提示使用的次数越多,可能意味着练习对他们来说越困难。
[0006]综上所述,尝试行为反馈和提示使用行为反馈比响应反馈更能捕捉学习者知识状态与练习困难度之间的关系。图2展示了ASSISTments2017数据集中练习平均正确率(ACR)分别在提示使用次数和尝试次数上的分布情况(黑色折线图),其中每个ACR值对应的练习次数(#exercise)参考红色折线图。从图中可以观察到,随着尝试次数和提示使用次数的增加,练习的ACR指标逐渐降低(忽略小样本引起的噪声),这无疑为本文的动机提供统计支持。虽然Chaudhry等人试图通过多任务学习(Multi

Task Learning,MTL)联合学习提示使用(提示使用与否,不考虑次数)预测(相关任务)与响应预测(主要任务),但他们的模型在学习者响应预测方面的性能提升有限。原因有三个:1)相关任务的反馈不够精细;2)主任务和相关任务之间的特征融合比较简单直接;3)由于练习数据稀疏性问题导致的练习样本不平衡问题也是制约知识追踪模型出色表现的客观挑战之一。如何将知识追踪模型应用于在线学习平台,以更加精准地捕捉每次交互后的知识增长,已成为一项亟待解决的关键技术问题。

技术实现思路

[0007]本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种用于在线学习平台的多任务注意力知识追踪方法及系统,本专利技术能够实现在线学习平台的多任务注意力知识追踪,通过不平衡感知注意力机制为具有不同记录计数的练习分配个性化权重来解决模型训练过程中遇到的极端锻炼记录不平衡问题,并基于在多任务特征融合和多模型特征融合两个阶段实现技能个性化的软融合,具有优秀的知识追踪性能。
[0008]为了解决上述技术问题,本专利技术采用的技术方案为:
[0009]一种用于在线学习平台的多任务注意力知识追踪方法,包括:
[0010]S101,根据历史交互序列提取当前时间步t的不平衡感知注意力权重
[0011]S102,基于当前时间步t的练习标签e
t
、技能标签s
t
以及不平衡感知注意力权重编码得到练习嵌入x
t
;基于不平衡感知注意力权重以及当前时间步t响应标签r
t
、真实学习动作a
t
编码得到知识嵌入y
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于在线学习平台的多任务注意力知识追踪方法,其特征在于,包括:S101,根据历史交互序列S
t
提取当前时间步t的不平衡感知注意力权重S102,基于当前时间步t的练习标签e
t
、技能标签s
t
以及不平衡感知注意力权重编码得到练习嵌入x
t
;基于不平衡感知注意力权重以及当前时间步t响应标签r
t
、真实学习动作a
t
编码得到知识嵌入y
t
;S103,对练习嵌入x
t
、知识嵌入y
t
进行注意力知识追踪获得知识状态h
t
;S104,根据时间步t的练习嵌入x
t
、知识状态h
t
进行多任务预测获得对应的预测结果,所述多任务预测包括主任务和至少一项相关任务,所述主任务用于预测获得学习者正确响应练习标签e
t
的预测概率所述相关任务用于预测获得学习者针对练习标签e
t
提交答案时的使用次数或尝试次数。2.根据权利要求1所述的用于在线学习平台的多任务注意力知识追踪方法,其特征在于,步骤S101包括:S201,从历史交互序列中统计每个练习标签e的先验样本数#e;S202,使用log2(#e+1)函数对#e进行离散化处理;S203,将离散化处理后的先验样本数设置为练习标签e的不平衡因子;S204,使用独热编码对每个练习标签e的不平衡因子编码,得到不平衡因子向量o
#e
;S205,用所有练习标签e中最大的不平衡因子值对不平衡感知嵌入向量I的维度D
iam
进行初始化,并根据下式计算得到当前时间步t的不平衡感知注意力权重行初始化,并根据下式计算得到当前时间步t的不平衡感知注意力权重上式中,上标T表示不平衡感知嵌入向量I的转置操作,且不平衡感知嵌入向量I的数将在训练过程中通过梯度反向传播被自动学习。3.根据权利要求1所述的用于在线学习平台的多任务注意力知识追踪方法,其特征在于,步骤S102中编码得到练习嵌入x
t
的函数表达式为:上式中,Softmax表示Softmax激活函数,为技能标签s
t
的原始嵌入,为当前时间步t的不平衡感知注意力权重,为练习标签e
t
的标量困难度参数,为技能标签s
t
下所有练习构成的向量,是对应的偏置向量,D表示嵌入的维度,且有:有:有:上式中,和分别表示技能和练习的独热编码向量;和分别为和的嵌入矩阵;为的嵌入向量,E表示练习总数,S表示在线学习平台中技能标签的数量,D为嵌入维度。4.根据权利要求1所述的用于在线学习平台的多任务注意力知识追踪方法,其特征在于,步骤S102中编码得到知识嵌入y
t
的函数表达式为:
上式中,Softmax表示Softmax激活函数,为技能

响应

行动的双任务嵌入,为当前时间步t的不平衡感知注意力权重,为练习标签e
t
的标量困难度参数,为技能

响应

行动的变量向量,是对应的偏置向量,D表示嵌入的维度,且有:嵌入的维度,且有:嵌入的维度,且有:嵌入的维度,且有:上式中,为主任务的技能

响应的原始嵌入,为相关任务的技能

行动的原始嵌入,为主任务的技能

响应变量嵌入向量,为相关任务的技能

行动变量嵌入向量,和分别表示主任务和相关任务的技能感知注意力权重,o
s
为技能标签s的独热向量,和分别为用于获取主任务和相关任务的特征融合的权重向量,且有:重向量,且有:重向量,且有:重向量,且有:上式中,和分别表示技能

响应和技能

行动的多热编码向量;和分别为和的嵌入矩阵;和分别为和的嵌入矩阵,S表示在线学习平台中技能标签的数量,D为嵌入维度,技能

响应的多热编码向量是将技能独热编码和响应的一位二进制编码0或1进行拼接得到;技能

行动的多热编码向量是将技能独热编码和行动的二进制编码进行拼接,L为行动的二进制编码的位数是最大行动标签对应...

【专利技术属性】
技术研发人员:王挺何亮亮李骁李莎莎唐晋韬
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1