一种基于强化学习的分层结构确定方法技术

技术编号：40187450 阅读：28 留言：0更新日期：2024-01-26 23:51

本申请涉及人工智能技术领域，公开一种基于强化学习的分层结构确定方法。由于DHRL方法模型的结构是动态的，能够在同一测试环境内测试和评估具有不同分层结构的测试实体，确保基于特定的测试环境下评估出最优性能最佳的分层结构。在没有先验专业知识的情况下针对测试环境实现自适应搜索最佳的训练层次结构。DHRL方法可基于嵌套策略获得测试智能体的动态分层结构。尽管测试智能体为执行任务需要学习较长的原始动作序列，但是动态嵌套机制的设计使每一层的策略仅需要学习较短的动作序列。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，例如涉及一种基于强化学习的分层结构确定方法。

技术介绍

1、分层强化学习(hierarchical reinforcement learning，hrl)具备在不同层级上进行时间抽象操作的能力，因而被认作是解决作战决策等复杂决策环境中收敛挑战的一种实用方法。近期的研究充分证明，hrl不仅可以学习解决一系列不同任务的高级操作，而且可以快速学习处理长期任务。

2、但是，hrl仍然面临一个关键挑战：目前针对分层强化学习(hrl)，不同层次结构的hrl的性能通常不同，当将hrl应用于新问题和新环境时，必须事先仔细选择分层设定(例如，两层，三层或更多)。研究人员主要关注如何在给定的垂直分层下自动抽象每个级别的动作空间。如图7所示，尽管水平结构是动态的，但这些固定的分层结构设定均依赖于专家的先验知识。若使用经典的试错法确定hrl的分层结构，也会导致高昂的时间成本和探索成本。

3、因此，如何设计一个动态分层强化学习(dynamic hierarchical reinforcementlearning，dhr...

【技术保护点】

1.一种基于强化学习的分层结构确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其中，所述基于嵌套策略在测试环境，进行若干所述测试实体进行训练包括：

3.根据权利要求2所述的方法，其中，所述测试实体具有多层结构，所述多层结构包括最后层、中间层和底层。

4.根据权利要求2任一项所述的方法，其中，基于公式：

5.根据权利要求2所述的方法，其中，基于公式：为所述测试实体底层更新可用子目标。

6.根据权利要求2所述的方法，其中，所述预设条件包括：所述测试实体达到预设目标状态，或所述测试实体训练累积次数达到上限。

7...

【技术特征摘要】

1.一种基于强化学习的分层结构确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其中，所述基于嵌套策略在测试环境，进行若干所述测试实体进行训练包括：

3.根据权利要求2所述的方法，其中，所述测试实体具有多层结构，所述多层结构包括最后层、中间层和底层。

4.根据权利要求2任一项所述的方法，其中，基于公式：

5.根据权利要求2所述的方法，其中，基于公式：为所述测试实体底层更新可用子目标。

6....

【专利技术属性】
技术研发人员：曹江，吴冠霖，高原，李朋，王晓楠，陈光，赵锦明，
申请(专利权)人：中国人民解放军军事科学院战争研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人