适用于离线强化学习的无监督数据生成框架制造技术

技术编号：41874902 阅读：25 留言：0更新日期：2024-07-02 00:26

本申请涉及深度强化学习技术领域，特别涉及一种适用于离线强化学习的无监督数据生成框架，其中，框架包括：获取提供给智能体的多个策略网络；基于多个策略网络进行无监督强化学习训练得到训练完成的多个策略网络，并利用训练完成的多个策略网络与环境交互获得多个数据集；根据离线强化学习的任务目标对多个数据集进行标注，并从标注后的多个数据集中选取满足目标条件的目标数据集，基于目标数据集进行离线强化学习，得到离线学习所学到的策略网络。由此，解决了相关技术中离线数据集的分布较窄，导致离线强化学习阶段的泛化性能差，当任务目标不可知时，无法学习得到最优策略等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及深度强化学习，特别涉及一种适用于离线强化学习的无监督数据生成框架。

技术介绍

1、强化学习是机器学习领域中较为复杂的一个研究领域，致力于解决更普遍的一类问题，如人机交互、博弈、机器人控制等等，还可以应用到大语言模型的开发中。因此强化学习在实现通用人工智能上具有广阔前景，是目前的前沿研究领域。

2、离线强化学习考虑的是智能体只能访问给定数据，而无法与环境进行交互的情况。智能体所访问的数据时已有的某个策略与环境进行交互的数据，包括智能体状态、动作、下一时刻状态以及智能体获得的回报。相比于在线强化学习，离线强化学习节省了与环境交互所带来的成本和安全性考量，适用于真实世界中的序列决策任务。但由于在学习过程中，智能体无法获得环境的反馈，难以对当前的策略进行纠偏，若简单采用在线强化学习算法，会导致概率分布的偏移以及值函数估计的偏差，使得学习获得的策略在实际情况下表现很差。

3、当前的离线强化学习算法大多抑制分布外的值函数的值，或者将策略限制在数据集分布附近，因此离线强化学习获得的策略的表现受数据集的影响很大，相关技...

【技术保护点】

1.一种适用于离线强化学习的无监督数据生成框架，其特征在于，包括以下步骤：

2.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架，其特征在于，所述基于所述多个策略网络进行无监督强化学习训练得到训练完成的多个策略网络，包括：

3.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架，其特征在于，所述利用所述训练完成的多个策略网络与环境交互获得多个数据集，包括：

4.根据权利要求3所述的适用于离线强化学习的无监督数据生成框架，其特征在于，所述样本生成动作包括：

5.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架，其特...

【技术特征摘要】

1.一种适用于离线强化学习的无监督数据生成框架，其特征在于，包括以下步骤：

4.根据权利要求3所述的适用于离线强化学习的无监督数据生成框架，其特征在于，所述样本生成动作包括：

5.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架，其特征在于，所述根据离线强化学习的任务目标对所述多个数据集进行标注，包括：

6.根据权利要求1所述的适用于离线强化学习的无监督数据生成框架，其特...

【专利技术属性】
技术研发人员：季向阳，何舜成，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人