一种面向深度知识追踪的全局最优的因果解释方法及系统技术方案

技术编号:39788402 阅读:10 留言:0更新日期:2023-12-22 02:27
本发明专利技术提供了一种面向深度知识追踪的全局最优的因果解释方法及系统,包括:构建因果归因度量框架,以确定知识追踪模型的输入序列与待预测题目信息之间的因果关联,对知识追踪模型的输出结果进行解释;顺序遍历每个答题交互对并将其输入到策略网络中以生成动作分布概率进行抽样决策,将决策指示保留的答题交互对加入候选解释子序列;确定每个答题交互对的奖励值,之后基于候选解释子序列中每个答题交互对的奖励确定候选解释子序列的折扣回报;对奖励值和折扣回报去绝对值,之后对策略网络进行反向传播更新梯度,以便策略网络顺序遍历全部输入序列中的答题交互对后更新候选解释子序列,并将最后得到的候选解释子序列作为输出结果的解释子序列

【技术实现步骤摘要】
一种面向深度知识追踪的全局最优的因果解释方法及系统


[0001]本专利技术属于知识追踪领域,更具体地,涉及一种面向深度知识追踪的全局最优的因果解释方法及系统


技术介绍

[0002]知识追踪
(Knowledge Tracing

KT)
旨在评估学习者在学习过程中的知识水平和理解程度,并通过学习者的答题信息个性化地调整学习计划,可用于在线教育

个性化学习

自适应学习等领域

近年来,随着深度学习技术的快速发展,基于深度学习的知识追踪
(Deep Learning

based KnowledgeTracing

DLKT)
已得到了广泛的应用,但是其深受深度学习黑箱属性的影响,学习者和教师无法了解模型背后的决策机理,难以对学习过程进行深入的归因,从而阻碍了学生的学习效率以及教师教学的有效反馈和个性化指导的发展

因此迫切需要对
DLKT
模型进行解释,然而目前解释
DLKT
模型的工作大多都是基于梯度或注意力分数,这些解释方法无法运用于其他
DLKT
模型,且尚未探究模型输入和输出之间的因果关系,可能会存在虚假关联

其他的一些因果可解释方法通过扰动或者贪心等策略评估输入特征的贡献程度,但是这些方式并不能充分考虑特征间的交互效应,而在知识追踪领域中特征间的交互效应尤为明显,同时这些可解释方法均算出每个特征的贡献后主观地选择一部分贡献较大的特征作为预测结果的解释,难以得到一个全局最优的可解释结果


技术实现思路

[0003]针对现有技术的缺陷,本专利技术的目的在于提供一种面向深度知识追踪的全局最优的因果解释方法及系统,旨在解决现有知识追踪模型的可解释性差,难以进一步分析学生的认知建模过程的问题

[0004]为实现上述目的,第一方面,本专利技术提供了一种面向深度知识追踪的全局最优的因果解释方法,包括:
[0005]构建因果归因度量框架,以确定知识追踪模型的输入序列与待预测题目信息之间的因果关联,对知识追踪模型的输出结果进行解释;所述输入序列包括多个历史答题交互对;
[0006]顺序遍历每个答题交互对并将其输入到策略网络中以生成动作分布概率进行抽样决策,将决策指示保留的答题交互对加入候选解释子序列;所述候选解释子序列包括输入序列中的至少一个答题交互对;所述动作分布概率用于表示答题交互对相对待预测题目的重要程度;
[0007]根据每个答题交互对加入候选解释子序列前后对应的因果效应值确定每个答题交互对的奖励值,之后基于候选解释子序列中每个答题交互对的奖励确定候选解释子序列的折扣回报;所述因果效应值反映候选解释子序列对知识追踪模块输出结果的贡献程度;
[0008]对所述奖励值和折扣回报去绝对值,之后对对应的策略网络进行反向传播更新梯度以训练策略网络,以便策略网络顺序遍历全部输入序列中的答题交互对后更新候选解释
子序列,并将最后得到的候选解释子序列作为输出结果的解释子序列

[0009]在一个可选的示例中,所述因果归因度量框架用于确定各个候选解释子序列对应的因果效应值;所述因果效应值通过如下步骤确定:
[0010]将输入序列输入到知识追踪模型,得到知识追踪模型对待预测题目的第一种预测输出结果;所述预测输出结果用于指示待预测题目被答对或被答错的概率;
[0011]将输入序列删除候选解释子序列后输入到知识追踪模型,得到知识追踪模型对待预测题目的第二种预测输出结果;
[0012]根据两种预测输出结果确定候选解释子序列的因果效应值

[0013]在一个可选的示例中,所述策略网络通过如下步骤确定每个答题交互对的动作分布概率:
[0014]接收历史遍历过的答题交互对及其对应的决策动作;所述动作指是否将答题交互对添加至候选解释子序列;
[0015]将历史遍历过的答题交互对和其对应的动作信息融合,之后利用长短期记忆网络并基于所述融合得到的信息得到当前状态的表征,从而确定下一个答题交互对的动作;
[0016]将下一个答题交互对的动作表征

当前时刻的状态表征和待预测题目的表征融合,得到下一个答题交互对的动作分布概率;所述下一个答题交互对的动作表征为下一个答题交互对的表征

[0017]在一个可选的示例中,将答题交互对输入到策略网络中生成动作概率后抽样执行该动作并计算该动作的奖励值,所述奖励值为执行当前时刻的动作得到的候选解释子序列的因果效应值减去上一个时刻的候选解释子序列的因果效应值;
[0018]通过折扣因子将每个时刻动作的奖励值累加,得到策略网络顺遍历整个答题交互对并决策后的折扣回报

[0019]在一个可选的示例中,所述奖励值
R(s
t
‑1,
a
t
)
为:
[0020]R(s
t
‑1,
a
t
)

ICE(E
t
)

ICE(E
t
‑1)
[0021]其中,
E
t

E
t
‑1分别指步骤
t
和步骤
t
‑1对应候选解释子序列,
ICE()
表示对应的因果效应值,步骤
t
对应对答题交互对
x
t
进行动作决策,步骤
t
‑1对应对答题交互对
x
t
‑1进行动作决策;
a
t
表示对答题交互对
x
t
的动作,
s
t
‑1表示
t
‑1时刻的状态;
[0022]所述折扣回报
U(s
t
‑1,
a
t
)
为:
[0023][0024]其中,
γ
是折扣因子,
T
表示步骤总数

[0025]在一个可选的示例中,所述因果归因度量框架通过最大化归因度量函数构造输出结果的解释子序列具体为:
[0026][0027][0028]其中,
A(E
k
|y
t

f
θ
)
为归因度量函数,用于衡量每个候选解释子序列
E
k
对输出结果
y
t
的贡献;
f
θ
表示待解释知识追踪模型的参数;
ICE(E
k
)
为子序列
E
k
的因果效应值;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向深度知识追踪的全局最优的因果解释方法,其特征在于,包括:构建因果归因度量框架,以确定知识追踪模型的输入序列与待预测题目信息之间的因果关联,对知识追踪模型的输出结果进行解释;所述输入序列包括多个历史答题交互对;顺序遍历每个答题交互对并将其输入到策略网络中以生成动作分布概率进行抽样决策,将决策指示保留的答题交互对加入候选解释子序列;所述候选解释子序列包括输入序列中的至少一个答题交互对;所述动作分布概率用于表示答题交互对相对待预测题目的重要程度;根据每个答题交互对加入候选解释子序列前后对应的因果效应值确定每个答题交互对的奖励值,之后基于候选解释子序列中每个答题交互对的奖励确定候选解释子序列的折扣回报;所述因果效应值反映候选解释子序列对知识追踪模块输出结果的贡献程度;对所述奖励值和折扣回报去绝对值,之后对对应的策略网络进行反向传播更新梯度以训练策略网络,以便策略网络顺序遍历全部输入序列中的答题交互对后更新候选解释子序列,并将最后得到的候选解释子序列作为输出结果的解释子序列
。2.
根据权利要求1所述的方法,其特征在于,所述因果归因度量框架用于确定各个候选解释子序列对应的因果效应值;所述因果效应值通过如下步骤确定:将输入序列输入到知识追踪模型,得到知识追踪模型对待预测题目的第一种预测输出结果;所述预测输出结果用于指示待预测题目被答对或被答错的概率;将输入序列删除候选解释子序列后输入到知识追踪模型,得到知识追踪模型对待预测题目的第二种预测输出结果;根据两种预测输出结果确定候选解释子序列的因果效应值
。3.
根据权利要求1所述的方法,其特征在于,所述策略网络通过如下步骤确定每个答题交互对的动作分布概率:接收历史遍历过的答题交互对及其对应的决策动作;所述动作指是否将答题交互对添加至候选解释子序列;将历史遍历过的答题交互对和其对应的动作信息融合,之后利用长短期记忆网络并基于所述融合得到的信息得到当前状态的表征,从而确定下一个答题交互对的动作;将下一个答题交互对的动作表征

当前时刻的状态表征和待预测题目的表征融合,得到下一个答题交互对的动作分布概率;所述下一个答题交互对的动作表征为下一个答题交互对的表征
。4.
根据权利要求1或2所述的方法,其特征在于,将答题交互对输入到策略网络中生成动作概率后抽样执行该动作并计算该动作的奖励值,所述奖励值为执行当前时刻的动作得到的候选解释子序列的因果效应值减去上一个时刻的候选解释子序列的因果效应值;通过折扣因子将每个时刻动作的奖励值累加,得到策略网络顺遍历整个答题交互对并决策后的折扣回报
。5.
根据权利要求4所述的方法,其特征在于,所述奖励值
R(s
t
‑1,a
t
)
为:
R(s
t
‑1,a
t
)

ICE(E
t
)

ICE(E
t
‑1)
其中,
E
t

E
t
‑1分别指步骤
t
和步骤
t
‑1对应候选解释子序列,
ICE()
表示对应的因果效应值,步骤
t
对应对答题交互对
x
t
进行动作决策,步骤
t
‑1对应对答题交互对
x
t
‑1进行动作决策;
a
t
表示对答题交互对
x
t
的动作,
s
t
‑1表示
t
‑1时刻的状态;
所述折扣回报
U(s
t
‑1,a
t
)
为:其中,
γ
是折扣因子,
T
表示步骤总数
。6.
根据权利要求5所述的方法,其特征在于,所述因果归因度量框架通过最大化归因度量函数构造输出结果的解释子序列具体为:具体为:其中,
A(E
k
|y
t
,f
θ
)
为归因度量函数,用于衡量每个候选解释子序列
E
k
对输出结果
y
t
的贡献;
f
θ
表示待解释知识追踪模型的参数;
ICE(E
k
)
为子序列
E

【专利技术属性】
技术研发人员:李卿刘三女牙袁鑫沈筱譞孙建文
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1