【技术实现步骤摘要】
本专利技术属于人工智能中的强化学习领域,尤其涉及一种基于自监督强化学习的即时奖励学习方法。
技术介绍
1、当前,人工智能在各行各业中应用的十分广泛,提高了各行各业的工作效率和智能化。
2、通常的人工智能方法是利用神经网络模型进行决策。然而神经网络模型是一个非常大、高容量的模型,其有效性能需要非常大和多样化的数据集,很多智能方法需要大量人工标注的数据集,并且人工设计的目标函数也和下游任务相关。在强化学习中,智能体需要感知到环境的状态信息和从交互中反馈的奖励信号。环境的状态信息可以利用硬件设备获取,奖励信号却需要根据不同环境及任务进行人工设计和标注。这种奖励设计方法扩展了强化学习的应用场景和提高了算法效率。
3、但是,在强化学习中,还存在奖励稀疏问题甚至无奖励的问题,该问题限制了强化学习的应用场景和强化学习的样本效率。所以,如何设计一个有效的、无人工标注的即时奖励学习方法是一个亟待解决的问题。
技术实现思路
1、针对现有技术存在的问题,本申请实施例的目的是提供一种基于自
...【技术保护点】
1.一种基于自监督强化学习的即时奖励学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述高维图像数据集中包括终止态高维图像和非终止态高维图像,每个所述终止态高维图像均带有终止状态成功或者失败标识。
3.根据权利要求1所述的方法,其特征在于,利用所述高维图像数据集训练自监督学习模型,得到对应的低维特征,包括:
4.根据权利要求1所述的方法,其特征在于,利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励,包括:
5.根据权利要求4所述的方法,其特征在于,将所述下一状态信息与所述成功
...【技术特征摘要】
1.一种基于自监督强化学习的即时奖励学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述高维图像数据集中包括终止态高维图像和非终止态高维图像,每个所述终止态高维图像均带有终止状态成功或者失败标识。
3.根据权利要求1所述的方法,其特征在于,利用所述高维图像数据集训练自监督学习模型,得到对应的低维特征,包括:
4.根据权利要求1所述的方法,其特征在于,利用状态转移模型预测的下一状态信息和两类特征进行比较分类,得到即时奖励,包括:
5.根据权利要求4所述的方法,其特征在于,将所述下一状态信息与所述成功特征和失败特征进行匹配,得到所述下一状态信息与所述成功特征相匹配的数值个数为m,所述下一状...
【专利技术属性】
技术研发人员:李帅龙,林峰,严笑然,张晴,马萧,薛均晓,陆亚飞,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。