【技术实现步骤摘要】
本申请涉及人工智能,例如涉及一种基于强化学习的分层结构确定方法。
技术介绍
1、分层强化学习(hierarchical reinforcement learning,hrl)具备在不同层级上进行时间抽象操作的能力,因而被认作是解决作战决策等复杂决策环境中收敛挑战的一种实用方法。近期的研究充分证明,hrl不仅可以学习解决一系列不同任务的高级操作,而且可以快速学习处理长期任务。
2、但是,hrl仍然面临一个关键挑战:目前针对分层强化学习(hrl),不同层次结构的hrl的性能通常不同,当将hrl应用于新问题和新环境时,必须事先仔细选择分层设定(例如,两层,三层或更多)。研究人员主要关注如何在给定的垂直分层下自动抽象每个级别的动作空间。如图7所示,尽管水平结构是动态的,但这些固定的分层结构设定均依赖于专家的先验知识。若使用经典的试错法确定hrl的分层结构,也会导致高昂的时间成本和探索成本。
3、因此,如何设计一个动态分层强化学习(dynamic hierarchical reinforcementlearning,dhr
...【技术保护点】
1.一种基于强化学习的分层结构确定方法,其特征在于,包括:
2.根据权利要求1所述的方法,其中,所述基于嵌套策略在测试环境,进行若干所述测试实体进行训练包括:
3.根据权利要求2所述的方法,其中,所述测试实体具有多层结构,所述多层结构包括最后层、中间层和底层。
4.根据权利要求2任一项所述的方法,其中,基于公式:
5.根据权利要求2所述的方法,其中,基于公式:为所述测试实体底层更新可用子目标。
6.根据权利要求2所述的方法,其中,所述预设条件包括:所述测试实体达到预设目标状态,或所述测试实体训练累积次数达到上
7...
【技术特征摘要】
1.一种基于强化学习的分层结构确定方法,其特征在于,包括:
2.根据权利要求1所述的方法,其中,所述基于嵌套策略在测试环境,进行若干所述测试实体进行训练包括:
3.根据权利要求2所述的方法,其中,所述测试实体具有多层结构,所述多层结构包括最后层、中间层和底层。
4.根据权利要求2任一项所述的方法,其中,基于公式:
5.根据权利要求2所述的方法,其中,基于公式:为所述测试实体底层更新可用子目标。
6....
【专利技术属性】
技术研发人员:曹江,吴冠霖,高原,李朋,王晓楠,陈光,赵锦明,
申请(专利权)人:中国人民解放军军事科学院战争研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。