【技术实现步骤摘要】
一种基于强化学习的教学路径规划方法及推荐系统
[0001]本专利技术属于智慧教育和计算机应用
,涉及一种基于强化学习的教学路径规划方法及推荐系统
。
技术介绍
[0002]随着人工智能技术的蓬勃发展,人机协作的教学交互模式作为一个全新的教学要素进入家校,在赋能教育教学的同时,也会催生教学变革和学习创新,这无疑能为智能时代的教育教学提供一个新的思路
。
大数据技术和人工智能技术结合,可以实现大量教育数据的采集
、
处理和分析,以改变传统教育数据应用的范式,通过构建教育领域相关模型,探索教育变量之间的相关关系,为教育教学决策提供有效支持,从而实现人才培养个性化
、
教学评价多样化
、
教育决策科学化
。
但在现有的教学实践中,人机协作教学模式还处于早期发展阶段,智能体在教学中只起到辅助作用,而且辅助对象多集中于学生
。2021
年,中共中央办公厅
、
国务院办公厅印发的
《
关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见
》(
简称“双减”政策
)
中明确指出要重置育人理念,深入推进教育领域综合改革,要合理调控作业结构,提高作业设计质量,提升学校课堂课后教学服务水平,满足学生多样化需求,在减轻学生过重的学业负担和校外培训负担的同时,达到提升学生在校学习效率的效果
。
技术实现思路
[0003]为了解决现有技术存在的 ...
【技术保护点】
【技术特征摘要】
1.
一种基于强化学习的教学路径规划方法,其特征在于,所述方法包括如下步骤:步骤一
、
收集授课资源
、
教师授课时的行为数据及持续时间
、
教学路径推荐数据,定期更新到动态数据库中;步骤二
、
将授课环境抽象到马尔科夫奖励过程的五元组框架中;步骤三
、
利用基于价值驱动的无模型强化学习算法创建动作
‑
价值表,确定某一时刻状态下,采取特定动作能够获得的奖励;步骤四
、
基于动作
‑
价值表,寻找一种策略最大化未来收益回报,基于此策略并兼顾学生接受度,智能体安排出最优教学路径
。2.
如权利要求1所述的方法,其特征在于,步骤一中,所述授课资源包括现有的授课资源和授课资源的历史数据,具体包括课程信息
、
授课内容
、
课程资料;其中,所述课程信息存储的内容包括课程基本信息
、
上课教师信息
、
上课学生信息
、
学生数量;所述授课内容是指课程的具体授课内容;所述课程资料是指包括课堂作业
、
课程授课视频在内的课程的资料;所述教师授课时的行为数据包括讲课
、
提问
、
让学生自由讨论及行为对应的持续时间;表示为
X
=
{(X1,
D1)
,
(X2,
D2)
,
...
,
(X
n
,
D
n
)}
,其中
X
n
表示授课时的行为,
D
n
表示具体行为的持续时间
。3.
如权利要求1所述的方法,其特征在于,步骤二中,对授课环境构建马尔科夫五元组,进行环境建模,所述授课环境包括授课资源数据
、
学生状态反馈数据;所述五元组框架中包括状态
、
动作
、
状态转移概率
、
奖励函数
、
折扣因子;所述状态是指学生在课堂上的接受度,所述动作是指教学路径推荐系统安排的课堂教学内容,所述状态转移概率是指智能体在当前状态下采取某一动作后进入下一个新状态的概率,所述奖励函数是指在转移到新状态时与智能体不断交互的环境产生奖励信号的过程,所述折扣因子是指用于衡量和控制智能体对自己所采取动作的短期和长期结果考虑程度
。4.
如权利要求1所述的方法,其特征在于,步骤三中,所述无模型强化学习算法基于智能体的记忆存储机制,用抽象到马尔科夫五元组中的
n
种状态和
m
个动作生成
n
×
m
的动作
‑
价值表格
Q
,其中
Q(n
i
,
m
j
)
代表第
i
个状态和第
j
个动作得到的当下时刻效用值,即奖励
。5.
如权利要求1所述的方法,其特征在于,步骤四中,通过更新强化学习算法,实现教学内容推荐,利用时间差分法不断迭代积累更新表格
Q
,公式如下:
V(s)
←
V(s)+
α
(R
t+1
+
γ
V(s
′
)
‑
V(s))
,其中,
α
为学习率,
R
t+1
+
γ
V(s
′
)
是时间差分目标,
R
t+1
+
γ
V(s
′
)
‑
V(s)
是时间差分偏差,在决策阶段的每一个新状态下,下一个状态中最大的
Q
值乘以奖励性衰变函数,加上真实回报值,即为现在的
Q
值,作为当前时刻智能体安排的教学内容;所述奖励性衰变函数用于控制智能体考虑的远近程度,所述真实回报值指现实中当前时刻的动作
‑
价值表中对应的奖励值
。6.
一种实现如权利要求1‑5之任一项所述教学路径规划方法的教学路径推荐系统,其特征在于,所述系统包括:数据存储单元
、
环境建模单元
、
学习策略单元
、
教学路径推荐单元;所述数据存储单元中构建有动态数据库,所述数据库中存储并定期更新包括授课资源
、
教师授课时的行为数据及持续时间
、
教学路径推荐系统在内的数据;所述环境建模单元用于将教育场景中的教学过程抽象成马尔科夫奖励过程的五元组
框架
MRP
=
<S
,
A
,
P
,
R
,
γ
>
中;所述学习策略单元利用
Q
‑
leaming
算法,寻找一个策略,用于最大化未来获得的回报;所述教学路径推荐单元用于基于学习策略单元得到的最优策略和学生的接受度,为目标教师推荐教学路径并帮助在后续学习中调整教学路径
。7.
如权利要求6所述的系统,其特征在于,五元组框架中,
S
表示状态集合,所述状态表示学生对课程的接受度,是所有信息中的唯一特征;所述接受度受学生数量
S
N
、
学生课堂实时反馈
S
F
和学生课后作业情况
S
H
影响,接受度值由
S
N
、S
F
、S
H
三个因素共同决定,通过下述公式计算:其中,
β
为公式中各项的幂参数值,
μ
和
ρ
表示对比实验后获得的最优超参数值
。8.
如权利要求6所述的系统,其特征在于,五元组框架中,
A
表示动作集合,所述动作是指智能体所...
【专利技术属性】
技术研发人员:曹桂涛,张欣悦,郑北辰,薛耀锋,刘诗语,刘勇,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。