一种基于生成对抗用户模型的强化学习路径规划方法技术

技术编号:35367597 阅读:46 留言:0更新日期:2022-10-29 18:08
本发明专利技术公开了一种基于生成对抗用户模型的强化学习路径规划方法,属于学习资源路径规划领域。一种基于生成对抗用户模型的强化学习路径规划方法,包括以下步骤:1)大数据驱动的用户群与训练数据集划分;2)基于分层奖励函数强化学习的路径规划模型Planer

【技术实现步骤摘要】
一种基于生成对抗用户模型的强化学习路径规划方法


[0001]本专利技术涉及一种学习资源路径规划方法,具体涉及一种基于生成对抗用户模型的强化学习路径规划方法。

技术介绍

[0002]现有的学习路径推荐算法可分为路径生成和路径序列两类。路径生成类算法在确定用户的特征和要求后,在单次推荐中生成整个学习路径,在完成了整个路径后才进行学习评估。Kardan提出了一种两阶段路径生成方法,第一阶段,使用K

means算法根据预测试的结果对用户进行分组。第二阶段,使用蚁群优化方法为每组生成一条路径;Zhan Li基于图搜索算法,根据给定的用户输入约束如学习目标、起点和对输出路径的首选排名等生成截止日期驱动型路径、目标驱动型路径、排序路径(考虑用户的排序偏好)三种类型的学习路径;Adorni和Koceva应用教育概念图(Educational Concept Map,ECM)来生成路径,用户通过从ECM中选择一组主题来确定知识背景、起点和终点,使用ENCODE生成路径。路径序列算法则根据用户在学习路径中的进展一步一步地推荐学习路径。Govindarajan应用并行粒子群优化算法预测用户的动态路径;Yarandi提出了一个基于本体论知识的模型,该模型接受用户的能力、知识背景、学习风格和偏好作为输入并推荐路径;Salahli使用项目反应理论估计用户对知识的理解程度,以此进行路径的规划。
[0003]从上述文献可以看出,在学习路径推荐中,对用户本身进行精准的画像是一个重要的方面,往往需要结合用户的静态和动态特征以建立最佳的用户模型。尤其随着时间的推移,用户的偏好、学习能力等特征会发生变化,推荐的学习路径也应随之动态变化。如何在用户偏好等特征快速变化时,对用户进行精准建模是自适应路径推荐的难点。现有的路径规划方法,路径序列算法往往需要借助知识追踪的结果进行认知诊断,常用于习题推荐,而不适用于课程学习;而路径生成算法大多忽略了用户表现和学习过程中发生的变化,可能导致用户状态改变后的错误推荐,且搜索速度较慢。因此如何结合用户建模结果,自适应地调整路径,为学习者实时推荐适合其学习偏好、学习进度的学习路径,是一个亟待解决的问题。

技术实现思路

[0004]本专利技术的目的在于克服上述现有技术的缺点,提供一种基于生成对抗用户模型的强化学习路径规划方法。
[0005]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0006]一种基于生成对抗用户模型的强化学习路径规划方法,包括以下步骤:
[0007]1)根据用户学习日志获取构建学习者相似度矩阵W,利用谱聚类方法在学习者相似度矩阵W上完成用户学习行为类型聚类,得到N类用户学习行为类型{Cluster
ui
|ui=1,

,N},根据用户学习行为类型可划分得到每一种学习行为类型对应的训练数据集D
ui

[0008]2)结合知识森林,构建基于分层奖励函数强化学习的路径规划模型,所述基于分
层奖励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构成的两层级的奖励函数,并将用户行为模型用作强化学习的环境,利用生成对抗训练的形式训练路径规划模型;
[0009]3)以用户学习行为类型、用户历史学习序列、目标知识点、学习资源集合及课程知识森林作为输入,基于级联DQN算法完成至目标知识点的学习资源路径规划,输出规划路径。
[0010]进一步的,步骤1)中构建学习者相似度矩阵W的具体操作为:获取每一个学习者的课程学习状态state
ui,course
、已完成知识点平均耗时比已完成知识点平均中心度已完成关键知识点个数及目标知识点的学习状态state
ui,target
,构建学习者评分向量U
i

[0011][0012]计算归一化后的学习者评分向量间的余弦相似度,构建学习者相似度矩阵W:
[0013]3、根据权利要求2所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤1)中利用谱聚类方法结合相似度矩阵W完成N种用户学习行为类型聚类及数据集划分的具体过程为:
[0014]分别构建度矩阵D和拉普拉斯矩阵L:
[0015][0016]L=D

W
ꢀꢀꢀ
(6)
[0017]利用对L进行标准化,随后计算前N个最小特征值的特征向量,将N个特征向量组成M*N维的矩阵,按行进行标准化得到矩阵F,对矩阵F中的每一行作为一个N维样本,共M个样本,用k

means进行聚类得出最终N类分类结果,将学习者划分为N种不同学习行为类型{Cluster
ui
|ui=1,...,N},据此划分用户日志,得到每一种学习行为类型对应的训练数据集D
ui

[0018]进一步的,步骤2)构建基于分层奖励函数强化学习的路径规划模型中,强化学习对应的马尔科夫决策过程的五元组M=(s
t
,A
t
,P(
·
|s
t
,A
t
),r(s
t
,a
t
),γ);
[0019]其中,学习者作为环境,状态s
t
表示学习者t时刻前的历史学习资源序列,动作a
t
表示t时刻从所述时刻候选学习资源集合L
t
中选择一个学习资源推荐给学习者,动作集A
t
则表示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合;状态转移概率P(
·
|s
t
,A
t
)则对应在给定状态s
t
和动作集A
t
时转移到下一个状态s
t+1
的概率,同时作为用户动作的同等分布奖励函数r(s
t
,a
t
)以及折扣因子γ。
[0020]进一步的,将奖励函数r(s
t
,a
t
)分解为序列决策奖励r
seq
和知识点规划决策奖励r
c
,即r=r
seq
+r
c

[0021]在计算序列决策奖励r
seq
时,计算推荐子序列和实际交互子序列的序列层级准确度,如式(8):
[0022][0023]式(8)中,prec
m
代表序列决策精度,i
t:t+k
为实际交互子序列,为推荐的子序列,p
m
为子序列i
t:t+k
的一个长度为m的子序列,M代表所使用的长度为m的子序列的个数;
[0024]在计算知识点规划决策奖励函数r
c
时,考虑到所推荐学习资源与实际点击的学习资源难度是否匹配,利用学习时长估计学习资源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗用户模型的强化学习路径规划方法,其特征在于,包括以下步骤:1)根据用户学习日志获取构建学习者相似度矩阵W,利用谱聚类方法在学习者相似度矩阵W上完成用户学习行为类型聚类,得到N类用户学习行为类型{Cluster
ui
|ui=1,

,N},根据用户学习行为类型可划分得到每一种学习行为类型对应的训练数据集D
ui
;2)结合知识森林,构建基于分层奖励函数强化学习的路径规划模型,所述基于分层奖励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构成的两层级的奖励函数,并将用户行为模型用作强化学习的环境,利用生成对抗训练的形式训练路径规划模型;3)以用户学习行为类型、用户历史学习序列、目标知识点、学习资源集合及课程知识森林作为输入,基于级联DQN算法完成至目标知识点的学习资源路径规划,输出规划路径。2.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤1)中构建学习者相似度矩阵W的具体操作为:获取每一个学习者的课程学习状态state
ui,course
、已完成知识点平均耗时比已完成知识点平均中心度已完成关键知识点个数及目标知识点的学习状态state
ui,target
,构建学习者评分向量U
i
:计算归一化后的学习者评分向量间的余弦相似度,构建学习者相似度矩阵W:3.根据权利要求2所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤1)中利用谱聚类方法结合相似度矩阵W完成N种用户学习行为类型聚类及数据集划分的具体过程为:分别构建度矩阵D和拉普拉斯矩阵L:L=D

W
ꢀꢀ
(6)利用对L进行标准化,随后计算前N个最小特征值的特征向量,将N个特征向量组成M*N维的矩阵,按行进行标准化得到矩阵F,对矩阵F中的每一行作为一个N维样本,共M个样本,用k

means进行聚类得出最终N类分类结果,将学习者划分为N种不同学习行为类型{Cluster
ui
|ui=1,

,N},据此划分用户日志,得到每一种学习行为类型对应的训练数据集D
ui
。4.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤2)构建基于分层奖励函数强化学习的路径规划模型中,强化学习对应的马尔科夫决策过程的五元组M=(s
t
,A
t
,P(
·
|s
t
,A
t
),r(s
t
,a
t
),γ);其中,学习者作为环境,状态s
t
表示学习者t时刻前的历史学习资源序列,动作a
t
表示t时刻从所述时刻候选学习资源集合L
t
中选择一个学习资源推荐给学习者,动作集A
t
则表示t
时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合;状态转移概率P(
·
|s
t
,A
t
)则对应在给定状态s
t
和动作集A
t
时转移到下一个状态s
t+1
的概率,同时作为用户动作的同等分布奖励函数r(s
t
,a
t
)以及折扣因子γ。5.根据权利要求4所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,将奖励函数r(s
t
,a
t
)分解为序列决策奖励r
seq
和知识点规划决策奖励r
c
,即r=r
seq
+r
c
;在计算序列决策奖励r
seq<...

【专利技术属性】
技术研发人员:田锋朱海萍马黛露丝廖思霁刘启东陈妍郑庆华王茜莺武亚强
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1