一种基于强化学习的教学路径规划方法及推荐系统技术方案

技术编号:39646034 阅读:16 留言:0更新日期:2023-12-09 11:13
本发明专利技术公开了一种基于强化学习的教学路径规划方法,所述方法包括:步骤一

【技术实现步骤摘要】
一种基于强化学习的教学路径规划方法及推荐系统


[0001]本专利技术属于智慧教育和计算机应用
,涉及一种基于强化学习的教学路径规划方法及推荐系统


技术介绍

[0002]随着人工智能技术的蓬勃发展,人机协作的教学交互模式作为一个全新的教学要素进入家校,在赋能教育教学的同时,也会催生教学变革和学习创新,这无疑能为智能时代的教育教学提供一个新的思路

大数据技术和人工智能技术结合,可以实现大量教育数据的采集

处理和分析,以改变传统教育数据应用的范式,通过构建教育领域相关模型,探索教育变量之间的相关关系,为教育教学决策提供有效支持,从而实现人才培养个性化

教学评价多样化

教育决策科学化

但在现有的教学实践中,人机协作教学模式还处于早期发展阶段,智能体在教学中只起到辅助作用,而且辅助对象多集中于学生
。2021
年,中共中央办公厅

国务院办公厅印发的

关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见
》(
简称“双减”政策
)
中明确指出要重置育人理念,深入推进教育领域综合改革,要合理调控作业结构,提高作业设计质量,提升学校课堂课后教学服务水平,满足学生多样化需求,在减轻学生过重的学业负担和校外培训负担的同时,达到提升学生在校学习效率的效果


技术实现思路

[0003]为了解决现有技术存在的不足,本专利技术的目的是提供一种基于强化学习的教学路径规划方法及推荐系统

本专利技术探索从智能教学路径规划的方向科学制定教学方案,增强课堂吸引力,优化教学质量体系,健全教学安排机制,充分发挥人工智能在人机协作中的优势,在不占用学生课外时间

不增加学生作业内容的前提下,使学生获得能力的提升,使老师的工作量减轻

[0004]在强化学习的基础上,把授课内容量

教师信息

学生接收度等能够反映教学情景的数据收集到动态数据库中,提取成马尔科夫奖励过程中的五元组,并通过价值驱动的无模型强化学习策略为教师推荐最合适的授课路径,达到积极响应“双减”政策内容,在不增加学生学业负担的情况下,为学生提供最合适的学习资源,为教师减轻教学负担,提高学生的学习效率和教师的工作效率的目的

[0005]本专利技术的第一方面,提供一种基于强化学习的教学路径规划方法,包括:
[0006]采集授课资源数据,所述授课资源数据包括每个时刻与教师相关的授课内容和授课资料等,收集教师教学数据,包括教师信息,教师行为交互数据等,收集授课过程中学生的状态信息,包括学生数量

学生信息和学生反馈数据;
[0007]基于授课资源数据和学生状态反馈数据,依据马尔科夫性,即给定现在的授课状态,过去的状态都蕴含在现在的状态信息中,抽象出状态

动作

状态转移概率

奖励函数和折扣因子五个要素,构建起面向教学场景的马尔科夫奖励过程,定义每一个授课状态下的
价值;所述状态是指学生在课堂上的接受度;所述动作是指教学路径推荐系统安排的课堂教学内容;所述状态转移概率是指智能体在当前状态下采取某一动作后进入下一个新状态的概率;在转移到新状态时与智能体不断交互的环境会产生奖励信号,称为奖励函数,随着时间的不断变化,智能体会通过选择动作来最大化奖励函数,找到正确的转移方向;所述折扣因子是指用于衡量和控制智能体对自己所采取动作的短期和长期结果考虑程度,如果折扣因子为0,则代表智能体刺客在采取动作的时候只考虑当下结果,当折扣因子接近1的时候,代表智能体采取行动的时候更在乎未来的回报

[0008]用由价值驱动的无模型强化学习算法建立动作

价值表,使智能体能够寻找到某一个时刻状态下,采取特定动作能够获得收益的奖励,此算法是智能体的记忆存储机制,将抽象到马尔科夫五元组中的状态和动作看作表格的两个维度,每一行记录状态,每一列记录动作,行列对应的内容为当下时刻的奖励;
[0009]基于强化学习算法学习到的动作

价值表,寻找一种策略最大化未来收益回报,在决策阶段的每一个新状态下,尝试可选动作集合中的每一个动作,不断迭代积累,基于回报策略并兼顾学生接受度,将最大效用值作为当前时刻智能体安排的教学内容,实现最大长期收益;
[0010]本专利技术的第二方面,提供一种基于强化学习的教学路径推荐系统,包括四个部分:数据存储单元,环境建模单元,学习策略单元和教学路径推荐单元

[0011]数据存储单元,使用动态数据库定期存储以下收集到的数据
。1)
授课资源及其历史数据,包括课程信息

授课内容和课程资料,课程信息存储的分别是课程基本信息

上课教师信息,上课学生信息

学生数量等,授课内容存储课程的具体授课内容,课程资料存储课程的资料,例如课堂作业,课程授课视频等;
2)
教师授课时的行为数据及持续时间段;
3)
教学路径推荐数据

[0012]环境建模单元,在教育场景下,将授课的整个行为和情景抽象建模为马尔科夫奖励过程的五元组,分别包括状态

动作

状态转移概率

奖励函数

折扣因子:
[0013]状态集合:是所有信息中的唯一特征,在本专利技术所针对的授课场景中,状态指学生对课程的接受度,接受度受学生数量

学生课堂实时反馈和学生课后作业情况影响,具体的接受度值由以上三个因素共同决定;
[0014]智能体的动作集合:在本专利技术所针对的授课场景中,具体指智能体所安排的教师授课内容;
[0015]状态转移概率:在确定的状态下智能体采取相应的动作后,以一定的概率确定智能体的下一个状态;
[0016]奖励函数:奖励函数是指在转移到新状态时与智能体不断交互的环境产生奖励信号的过程,能够决定强化学习算法的收敛速度和程度;
[0017]折扣因子:是指用于衡量和控制智能体对自己所采取动作的短期和长期结果考虑程度,用来调节近远期影响,根据奖励函数和折扣因子能够确定每一个状态的价值;
[0018]学习策略单元,采用基于价值驱动的无模型强化学习算法寻找一个策略最大化未来获得的回报

在环境建模单元将智能体和环境的交互建模为马尔科夫奖励过程的五元组后,智能体在某一具体时刻所处的状态和所选择的动作决定了状态转移概率

下一个状态

并得到一个回报

基于价值驱动的无模型强化学习算法寻找一个最优的动作选择策略,通
过一个动作

价本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的教学路径规划方法,其特征在于,所述方法包括如下步骤:步骤一

收集授课资源

教师授课时的行为数据及持续时间

教学路径推荐数据,定期更新到动态数据库中;步骤二

将授课环境抽象到马尔科夫奖励过程的五元组框架中;步骤三

利用基于价值驱动的无模型强化学习算法创建动作

价值表,确定某一时刻状态下,采取特定动作能够获得的奖励;步骤四

基于动作

价值表,寻找一种策略最大化未来收益回报,基于此策略并兼顾学生接受度,智能体安排出最优教学路径
。2.
如权利要求1所述的方法,其特征在于,步骤一中,所述授课资源包括现有的授课资源和授课资源的历史数据,具体包括课程信息

授课内容

课程资料;其中,所述课程信息存储的内容包括课程基本信息

上课教师信息

上课学生信息

学生数量;所述授课内容是指课程的具体授课内容;所述课程资料是指包括课堂作业

课程授课视频在内的课程的资料;所述教师授课时的行为数据包括讲课

提问

让学生自由讨论及行为对应的持续时间;表示为
X

{(X1,
D1)

(X2,
D2)

...

(X
n

D
n
)}
,其中
X
n
表示授课时的行为,
D
n
表示具体行为的持续时间
。3.
如权利要求1所述的方法,其特征在于,步骤二中,对授课环境构建马尔科夫五元组,进行环境建模,所述授课环境包括授课资源数据

学生状态反馈数据;所述五元组框架中包括状态

动作

状态转移概率

奖励函数

折扣因子;所述状态是指学生在课堂上的接受度,所述动作是指教学路径推荐系统安排的课堂教学内容,所述状态转移概率是指智能体在当前状态下采取某一动作后进入下一个新状态的概率,所述奖励函数是指在转移到新状态时与智能体不断交互的环境产生奖励信号的过程,所述折扣因子是指用于衡量和控制智能体对自己所采取动作的短期和长期结果考虑程度
。4.
如权利要求1所述的方法,其特征在于,步骤三中,所述无模型强化学习算法基于智能体的记忆存储机制,用抽象到马尔科夫五元组中的
n
种状态和
m
个动作生成
n
×
m
的动作

价值表格
Q
,其中
Q(n
i

m
j
)
代表第
i
个状态和第
j
个动作得到的当下时刻效用值,即奖励
。5.
如权利要求1所述的方法,其特征在于,步骤四中,通过更新强化学习算法,实现教学内容推荐,利用时间差分法不断迭代积累更新表格
Q
,公式如下:
V(s)

V(s)+
α
(R
t+1
+
γ
V(s

)

V(s))
,其中,
α
为学习率,
R
t+1
+
γ
V(s

)
是时间差分目标,
R
t+1
+
γ
V(s

)

V(s)
是时间差分偏差,在决策阶段的每一个新状态下,下一个状态中最大的
Q
值乘以奖励性衰变函数,加上真实回报值,即为现在的
Q
值,作为当前时刻智能体安排的教学内容;所述奖励性衰变函数用于控制智能体考虑的远近程度,所述真实回报值指现实中当前时刻的动作

价值表中对应的奖励值
。6.
一种实现如权利要求1‑5之任一项所述教学路径规划方法的教学路径推荐系统,其特征在于,所述系统包括:数据存储单元

环境建模单元

学习策略单元

教学路径推荐单元;所述数据存储单元中构建有动态数据库,所述数据库中存储并定期更新包括授课资源

教师授课时的行为数据及持续时间

教学路径推荐系统在内的数据;所述环境建模单元用于将教育场景中的教学过程抽象成马尔科夫奖励过程的五元组
框架
MRP

<S

A

P

R

γ
>
中;所述学习策略单元利用
Q

leaming
算法,寻找一个策略,用于最大化未来获得的回报;所述教学路径推荐单元用于基于学习策略单元得到的最优策略和学生的接受度,为目标教师推荐教学路径并帮助在后续学习中调整教学路径
。7.
如权利要求6所述的系统,其特征在于,五元组框架中,
S
表示状态集合,所述状态表示学生对课程的接受度,是所有信息中的唯一特征;所述接受度受学生数量
S
N

学生课堂实时反馈
S
F
和学生课后作业情况
S
H
影响,接受度值由
S
N
、S
F
、S
H
三个因素共同决定,通过下述公式计算:其中,
β
为公式中各项的幂参数值,
μ

ρ
表示对比实验后获得的最优超参数值
。8.
如权利要求6所述的系统,其特征在于,五元组框架中,
A
表示动作集合,所述动作是指智能体所...

【专利技术属性】
技术研发人员:曹桂涛张欣悦郑北辰薛耀锋刘诗语刘勇
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1