当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于自监督强化学习的即时奖励学习方法技术

技术编号:41125051 阅读:41 留言:0更新日期:2024-04-30 17:52
本发明专利技术公开了一种基于自监督强化学习的即时奖励学习方法,获取高维图像数据集,高维图像数据集中包括若干带有终止状态成功或者失败标识的图像;利用高维图像数据集训练自监督学习模型,得到对应的低维特征;利用高维图像数据带有的终止状态的标识,基于低维特征,得到成功特征和失败特征;利用监督学习方法训练状态转移模型,并利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励;基于即时奖励,利用强化学习方法进行决策。本发明专利技术可以减少强化学习方法中奖励的人工设计及标注,使得即时奖励的获取智能化。同时,这种即时奖励学习方法可以扩充强化学习的应用范围,扩展了强化学习框架的实际应用,具有广阔的场景。

【技术实现步骤摘要】

本专利技术属于人工智能中的强化学习领域,尤其涉及一种基于自监督强化学习的即时奖励学习方法


技术介绍

1、当前,人工智能在各行各业中应用的十分广泛,提高了各行各业的工作效率和智能化。

2、通常的人工智能方法是利用神经网络模型进行决策。然而神经网络模型是一个非常大、高容量的模型,其有效性能需要非常大和多样化的数据集,很多智能方法需要大量人工标注的数据集,并且人工设计的目标函数也和下游任务相关。在强化学习中,智能体需要感知到环境的状态信息和从交互中反馈的奖励信号。环境的状态信息可以利用硬件设备获取,奖励信号却需要根据不同环境及任务进行人工设计和标注。这种奖励设计方法扩展了强化学习的应用场景和提高了算法效率。

3、但是,在强化学习中,还存在奖励稀疏问题甚至无奖励的问题,该问题限制了强化学习的应用场景和强化学习的样本效率。所以,如何设计一个有效的、无人工标注的即时奖励学习方法是一个亟待解决的问题。


技术实现思路

1、针对现有技术存在的问题,本申请实施例的目的是提供一种基于自监督强化学习的即时奖本文档来自技高网...

【技术保护点】

1.一种基于自监督强化学习的即时奖励学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述高维图像数据集中包括终止态高维图像和非终止态高维图像,每个所述终止态高维图像均带有终止状态成功或者失败标识。

3.根据权利要求1所述的方法,其特征在于,利用所述高维图像数据集训练自监督学习模型,得到对应的低维特征,包括:

4.根据权利要求1所述的方法,其特征在于,利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励,包括:

5.根据权利要求4所述的方法,其特征在于,将所述下一状态信息与所述成功特征和失败特征进行匹...

【技术特征摘要】

1.一种基于自监督强化学习的即时奖励学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述高维图像数据集中包括终止态高维图像和非终止态高维图像,每个所述终止态高维图像均带有终止状态成功或者失败标识。

3.根据权利要求1所述的方法,其特征在于,利用所述高维图像数据集训练自监督学习模型,得到对应的低维特征,包括:

4.根据权利要求1所述的方法,其特征在于,利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励,包括:

5.根据权利要求4所述的方法,其特征在于,将所述下一状态信息与所述成功特征和失败特征进行匹配,得到所述下一状态信息与所述成功特征相匹配的数值个数为m,所述下一状...

【专利技术属性】
技术研发人员:李帅龙林峰严笑然张晴马萧薛均晓陆亚飞
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1