一种强化学习支持下的协作学习干预方法及系统技术方案

技术编号:38651192 阅读:12 留言:0更新日期:2023-09-02 22:40
本发明专利技术提供了一种强化学习支持下的协作学习干预方法及系统,包括:基于感知到的协作讨论环境的状态从干预动作空间中选择干预动作,在执行干预动作之后,获得协作讨论环境反馈给的奖赏和下一时刻的状态,进而获得转移数据;状态包括协作讨论环境中所有学习者的协作会话;重复上述步骤,直至获得预设数量的转移数据;基于预设数量的转移数据对Q网络进行训练,在训练过程中,采用改进的Q学习方法对Q值函数进行更新;利用训练完成的Q网络,确定当前状态下最大Q值对应的当前干预动作;基于当前干预动作对学习者进行干预建议。本发明专利技术能够为不充分掌握协作学习元认知策略的学习者提供学习支持,促进学习者之间的协作活动和个体的元认知能力发展。元认知能力发展。元认知能力发展。

【技术实现步骤摘要】
一种强化学习支持下的协作学习干预方法及系统


[0001]本专利技术属于智能教育
,更具体地,涉及一种强化学习支持下的协作学习干预方法及系统。

技术介绍

[0002]在阅读中,社会性协同批注是一种具体的协作学习方式,要求学生以小组为单位,对同一材料进行阅读、批注和观点交流,从而促进学生对相应知识的深度理解和协作交流能力的培养。协作学习本身也是需要被支持的,在面对追踪每个学生的学习信息和学习需求时,增加技术支持是能够减轻教师负担的。
[0003]协作学习干预方法与系统目前主要功能集中在学生达成共识和协作任务推进的方面,而缺失了学习者完整的学习链条中元认知层面的支持。元认知是保持学习动机、协调协作任务、发展学习策略和促进知识建构的重要因素,此方面的研究与设计较少。因此,如何为学习者在协作学习过程的元认知层面给出学习干预,从而促进学习者之间的协作活动和个体的元认知能力发展,成为智能教育
亟待解决的技术难题。

技术实现思路

[0004]针对现有技术的缺陷,本专利技术的目的在于提供一种强化学习支持下的协作学习干预方法及系统,旨在解决如何为学习者在协作学习过程的元认知层面给出学习干预的问题。
[0005]为实现上述目的,第一方面,本专利技术提供了一种强化学习支持下的协作学习干预方法,包括:
[0006]S101基于感知到的协作讨论环境的状态s
t
从干预动作空间中选择干预动作a
t
,在执行干预动作a
t
之后,获得协作讨论环境反馈给的奖赏r
t
和下一时刻的状态s
t+1
,进而获得转移数据(s
t
,a
t
,r
t
,s
t+1
);所述状态s
t
包括所述协作讨论环境中所有学习者的协作会话;
[0007]S102重复步骤S101,直至获得预设数量的转移数据;
[0008]S103基于所述预设数量的转移数据对Q网络进行训练,在训练过程中,采用改进的Q学习方法对Q值函数进行更新;
[0009]S104利用训练完成的Q网络,从所述干预动作空间中确定当前状态下最大Q值对应的当前干预动作;
[0010]S105基于所述当前干预动作对学习者进行干预建议。
[0011]在一个可选的示例中,所述改进的Q学习方法具体基于如下公式对Q值函数进行更新:
[0012]Q(s
t
,a
t
)

Q(s
t
,a
t
)+α
·
(R
t

·
max(Q(s
t+1
,
·
))

Q(s
t
,a
t
))
[0013]式中,Q(s
t
,a
t
)是第t步的Q值,max(Q(s
t+1
,
·
))是状态s
t+1
下的最大Q值,s
t
是第t步时的状态,a
t
是第t步时的干预动作,s
t+1
是第t+1步时的状态,R
t
是第t步的奖励,α是学习率,γ是折扣率。
[0014]在一个可选的示例中,干预动作空间包括:个人元认知建议、小组进度协调建议、任务开始阶段的小组沟通建议、学习全程的小组沟通建议、举例阶段的小组知识整合建议和论证阶段的小组知识整合建议。
[0015]在一个可选的示例中,S105具体包括:
[0016]基于所述当前干预动作,随机选取对应的收益框架或损失框架;
[0017]将选取的收益框架或损失框架呈现到协作讨论环境中,以对学习者进行干预建议。
[0018]在一个可选的示例中,S104之前还包括:
[0019]基于历史执行的干预动作,以及所有学习者的历史协作会话,确定是否对学习者进行干预。
[0020]第二方面,本专利技术提供了一种强化学习支持下的协作学习干预系统,包括:
[0021]数据获得模块,用于基于感知到的协作讨论环境的状态s
t
从干预动作空间中选择干预动作a
t
,在执行干预动作a
t
之后,获得协作讨论环境反馈给的奖赏r
t
和下一时刻的状态s
t+1
,进而获得转移数据(s
t,
a
t
,r
t
,s
t+1
);所述状态s
t
包括所述协作讨论环境中所有学习者的协作会话;
[0022]数据积累模块,用于重复调用数据积累模块,直至获得预设数量的转移数据;
[0023]网络训练模块,用于基于所述预设数量的转移数据对Q网络进行训练,在训练过程中,采用改进的Q学习方法对Q值函数进行更新;
[0024]动作决策模块,用于利用训练完成的Q网络,从所述干预动作空间中确定当前状态下最大Q值对应的当前干预动作;
[0025]干预建议模块,用于基于所述当前干预动作对学习者进行干预建议。
[0026]在一个可选的示例中,所述网络训练模块中改进的Q学习方法具体基于如下公式对Q值函数进行更新:
[0027]Q(s
t
,a
t
)

Q(s
t
,a
t
)+α
·
(R
t

·
max(Q(s
t+1
,
·
))

Q(s
t
,a
t
))
[0028]式中,Q(s
t
,a
t
)是第t步的Q值,max(Q(s
t+1
,
·
))是状态s
t+1
下的最大Q值,s
t
是第t步时的状态,a
t
是第t步时的干预动作,s
t+1
是第t+1步时的状态,R
t
是第t步的奖励,α是学习率,γ是折扣率。
[0029]在一个可选的示例中,所述数据获得模块中干预动作空间包括:个人元认知建议、小组进度协调建议、任务开始阶段的小组沟通建议、学习全程的小组沟通建议、举例阶段的小组知识整合建议和论证阶段的小组知识整合建议。
[0030]在一个可选的示例中,所述干预建议模块具体用于:
[0031]基于所述当前干预动作,随机选取对应的收益框架或损失框架;
[0032]将选取的收益框架或损失框架呈现到协作讨论环境中,以对学习者进行干预建议。
[0033]在一个可选的示例中,还包括干预判断模块,用于:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种强化学习支持下的协作学习干预方法,其特征在于,包括:S101基于感知到的协作讨论环境的状态s
t
从干预动作空间中选择干预动作a
t
,在执行干预动作a
t
之后,获得协作讨论环境反馈给的奖赏r
t
和下一时刻的状态s
t+1
,进而获得转移数据(s
t
,a
t
,r
t
,s
t+1
);所述状态s
t
包括所述协作讨论环境中所有学习者的协作会话;S102重复步骤S101,直至获得预设数量的转移数据;S103基于所述预设数量的转移数据对Q网络进行训练,在训练过程中,采用改进的Q学习方法对Q值函数进行更新;S104利用训练完成的Q网络,从所述干预动作空间中确定当前状态下最大Q值对应的当前干预动作;S105基于所述当前干预动作对学习者进行干预建议。2.根据权利要求1所述的方法,其特征在于,所述改进的Q学习方法具体基于如下公式对Q值函数进行更新:Q(s
t
,a
t
)

Q(s
t
,a
t
)+α
·
(R
t

·
max(Q(s
t+1

·
))

Q(s
t
,a
t
))式中,Q(s
t
,a
t
)是第t步的Q值,max(Q(s
t+1

·
))是状态s
t+1
下的最大Q值,s
t
是第t步时的状态,a
t
是第t步时的干预动作,s
t+1
是第t+1步时的状态,R
t
是第t步的奖励,α是学习率,γ是折扣率。3.根据权利要求1所述的方法,其特征在于,干预动作空间包括:个人元认知建议、小组进度协调建议、任务开始阶段的小组沟通建议、学习全程的小组沟通建议、举例阶段的小组知识整合建议和论证阶段的小组知识整合建议。4.根据权利要求1所述的方法,其特征在于,S105具体包括:基于所述当前干预动作,随机选取对应的收益框架或损失框架;将选取的收益框架或损失框架呈现到协作讨论环境中,以对学习者进行干预建议。5.根据权利要求1至4任一项所述的方法,其特征在于,S104之前还包括:基于历史执行的干预动作,以及所有学习者的历史协作会话,确定是否对学习者进行干预。6.一种强化学习支持下的协作学习干预系统,其特征在于,包括:数据...

【专利技术属性】
技术研发人员:张立山张思旭邓林玉舒燕吴涵段腾飞王红晔
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1