基于广泛目标重标记的目标条件强化学习方法技术

技术编号：41108245 阅读：4 留言：0更新日期：2024-04-25 14:01

本发明专利技术公开了一种基于广泛目标重标记的目标条件强化学习方法，包括如下步骤：将收集到的轨迹数据存储于重播缓冲区；从重播缓冲区中随机采样转移数据；从重播缓冲区中以同轨迹和不同轨迹两种形式采样轨迹状态，并重标记为新的目标；将重标记目标整合到转移数据中并计算奖励；利用规划策略在当前状态和重标记目标之间生成一系列子目标，形成潜在的路径；利用自模仿学习鼓励智能体在学习以重标记目标为条件的策略时模仿以子目标为条件的策略；利用重标记、规划和自模仿的数据更新演员‑评论家网络学习目标条件策略和状态目标估计值并输出。本发明专利技术可以显著提高目标条件强化学习的性能表现，尤其是在稀疏奖励和难以探索的环境中的表现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习技术，尤其是基于广泛目标重标记的目标条件强化学习方法。

技术介绍

1、近年来，强化学习技术已在游戏、机器人、系统调度等多个领域取得显著进展。特别是目标条件强化学习(goal-conditioned reinforcement learning,gcrl)，成为了该领域的重要研究方向。gcrl通过引入特定目标，不仅拓展了智能体的输入信息范围，还允许智能体在当前状态和目标条件的共同作用下进行决策。这种方法有效地融入了人类的先验知识，为强化学习过程提供了新的维度。例如，在面对需要长期规划的目标时，通过设定一系列逐步递进的子目标，可以有效地指导和优化智能体的学习过程。此外，gcrl利用深度神经网络的强大泛化能力，使得智能体能够在不同目标之间迁移并应用学习到的策略，从而加速学习过程。与此同时，gcrl有效减少了为特定任务设计专门奖励函数的难度，仅需依据是否实现指定目标即可计算奖励，简化了奖励机制的设计。然而，gcrl面临的一个主要挑战是，人类专家难以为所有潜在目标提供合理的子目标。此外，智能体的重播缓冲区(replaybuffer)中记录的不同探索轨迹可能针对不同目标，这使得各个历史经验之间的相互借鉴变得困难。因此，探索如何高效利用历史数据，加速智能体在不同目标间的知识迁移，成为了提升gcrl效率的关键。

2、目标重标记(goal relabelling)技术，作为一种有效提高gcrl中数据利用率的方法，已经被广泛采用。它通过对特定目标轨迹中的状态进行重标记为新的目标，扩展了原有轨迹的数据应用范围。这一方

3、尽管如此，目前的目标重标记方案过于依赖真实轨迹，未能充分挖掘历史数据的潜力，限制了gcrl在数据利用率上的进一步提升。

技术实现思路

1、专利技术目的，提供一种基于广泛目标重标记的目标条件强化学习方法，以解决现有技术存在的上述问题之一。

2、技术方案，在本申请的另一实施例中，提供一种基于广泛目标重标记的目标条件强化学习方法，包括如下步骤：

3、步骤s1、收集智能体在执行各种任务时生成的交互轨迹，每条交互轨迹包含从起始状态朝着特定目标执行所到达的一系列状态和动作，将收集到的轨迹以转移数据的形式按序存储于重播缓冲区，用于后续的数据重标记和策略学习；

4、步骤s2、从重播缓冲区中随机采样一些转移数据，并记录转移数据所属轨迹在重播缓冲区中的索引；

5、步骤s3、从重播缓冲区中以同轨迹和不同轨迹两种方式随机选取转移数据中的状态，并重标记为新的目标，将重标记目标整合成新的转移数据用于策略学习和价值估计。

6、步骤s4、利用子目标规划策略为新的转移数据中的当前状态和重标记目标之间生成一系列子目标，形成潜在的路径，从而引导智能体如何从当前状态到达重标记目标；

7、步骤s5、构建演员-评论家网络结构，基于新的转移数据训练状态目标价值估计模型以及子目标规划策略；

8、步骤s6、利用自模仿学习鼓励智能体在学习以重标记目标为条件的策略时模仿以子目标为条件的策略，完成对重标记目标的引导式学习；

9、步骤s7、基于重播缓冲区的数据，利用重标记、规划和自模仿训练演员-评论家网络，得到目标条件策略与状态目标价值估计模型，并进行性能测试和评估。

10、根据本申请的另一个方面，提供一种基于广泛目标重标记的目标条件强化学习方法，包括如下步骤：

11、步骤s1、收集智能体在执行各种任务时生成的交互轨迹，每条交互轨迹包含从起始状态到达特定目标的一系列状态和动作，将收集到的轨迹数据存储于重播缓冲区，用于后续的数据重标记和策略学习；

12、步骤s2、从重播缓冲区中选取用于智能体在不同条件下表现的特定状态，并重标记为新的目标；将来自不同轨迹的重标记状态进行整合；

13、步骤s3、通过演员-评论家网络构建优化目标，并利用规划策略在当前状态和重标记目标之间生成一系列子目标，形成潜在的路径，从而对重标记状态数据进行规划；

14、步骤s4、利用自模仿学习鼓励智能体在学习以重标记目标为条件的策略时模仿以子目标为条件的策略，完成对规划的数据进行自模仿；

15、步骤s5、利用重标记、规划和自模仿的数据更新演员-评论家网络，学习目标条件策略和状态目标估计值；输出目标条件策略并进行性能测试和评估。

16、有益效果，采用广泛目标重标记方案，即不仅考虑同轨迹上的未来状态作为重标记目标，还考虑不同轨迹上的状态作为重标记目标，从而大幅扩展了数据的多样性和覆盖率。此外，本技术方案还结合了规划和自模仿的方法，分别用于在当前状态和重标记目标之间生成子目标和鼓励智能体模仿子目标策略，从而缓解重标记目标缺乏真实轨迹支撑的问题，提高泛化能力和稳定性。

17、可以显著提高目标条件强化学习的性能表现，尤其是在稀疏奖励和难以探索的环境中，如机器人导航和机械臂操作等任务。实验结果表明，本技术方案相比her在随机任务和困难任务的成功率上都有显著提升，证明了其有效性和优越性。

本文档来自技高网...

【技术保护点】

1.基于广泛目标重标记的目标条件强化学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤S1还包括：

3.根据权利要求2所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤S2进一步为：

4.根据权利要求3所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤S3进一步为：

5.根据权利要求4所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤S4进一步为：

6.根据权利要求5所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤S5进一步为：

7.根据权利要求6所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤S6进一步为：

【技术特征摘要】

1.基于广泛目标重标记的目标条件强化学习方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤s1还包括：

3.根据权利要求2所述的基于广泛目标重标记的目标条件强化学习方法，其特征在于，所述步骤s2进一步为：

4.根据权利要求3所述的基于广泛目标重标记的目标条件强化学习方法，...

【专利技术属性】
技术研发人员：张天，张一帆，
申请(专利权)人：中科南京人工智能创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人