【技术实现步骤摘要】
本申请涉及深度强化学习,特别涉及一种适用于离线强化学习的无监督数据生成框架。
技术介绍
1、强化学习是机器学习领域中较为复杂的一个研究领域,致力于解决更普遍的一类问题,如人机交互、博弈、机器人控制等等,还可以应用到大语言模型的开发中。因此强化学习在实现通用人工智能上具有广阔前景,是目前的前沿研究领域。
2、离线强化学习考虑的是智能体只能访问给定数据,而无法与环境进行交互的情况。智能体所访问的数据时已有的某个策略与环境进行交互的数据,包括智能体状态、动作、下一时刻状态以及智能体获得的回报。相比于在线强化学习,离线强化学习节省了与环境交互所带来的成本和安全性考量,适用于真实世界中的序列决策任务。但由于在学习过程中,智能体无法获得环境的反馈,难以对当前的策略进行纠偏,若简单采用在线强化学习算法,会导致概率分布的偏移以及值函数估计的偏差,使得学习获得的策略在实际情况下表现很差。
3、当前的离线强化学习算法大多抑制分布外的值函数的值,或者将策略限制在数据集分布附近,因此离线强化学习获得的策略的表现受数据集的影响很大,相关技
...【技术保护点】
1.一种适用于离线强化学习的无监督数据生成框架,其特征在于,包括以下步骤:
2.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架,其特征在于,所述基于所述多个策略网络进行无监督强化学习训练得到训练完成的多个策略网络,包括:
3.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架,其特征在于,所述利用所述训练完成的多个策略网络与环境交互获得多个数据集,包括:
4.根据权利要求3所述的适用于离线强化学习的无监督数据生成框架,其特征在于,所述样本生成动作包括:
5.根据权利要求1所述的适用于离线强化学习的无监
...【技术特征摘要】
1.一种适用于离线强化学习的无监督数据生成框架,其特征在于,包括以下步骤:
2.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架,其特征在于,所述基于所述多个策略网络进行无监督强化学习训练得到训练完成的多个策略网络,包括:
3.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架,其特征在于,所述利用所述训练完成的多个策略网络与环境交互获得多个数据集,包括:
4.根据权利要求3所述的适用于离线强化学习的无监督数据生成框架,其特征在于,所述样本生成动作包括:
5.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架,其特征在于,所述根据离线强化学习的任务目标对所述多个数据集进行标注,包括:
6.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架,其特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。