【技术实现步骤摘要】
本申请涉及多无人机协作策略学习方法,特别是涉及一种基于时序分层决策的多无人机协作策略学习方法和装置。
技术介绍
1、近年来,多无人机协同任务(如区域搜索、编队控制、灾害救援等)因其灵活性与高效性,已成为智能无人系统领域的研究热点。为实现复杂环境下的自主协作,多智能体强化学习被广泛应用于无人机协同策略学习。然而,实际场景中任务目标往往对应极稀疏的外在奖励信号(如仅在任务完成时给予一次性奖励),导致智能体在庞大协同决策空间中的探索效率低下,策略收敛困难,成为制约技术落地的核心瓶颈。
2、稀疏奖励条件下,内在奖励驱动智能体在状态空间中搜索正向(外在)奖励,本质上是驱动智能体在协同序贯决策空间中搜索可到达正向奖励状态的有效决策序列。内在奖励提供了有效的决策序列搜索策略,但未对需要搜索的序贯决策空间本身进行优化。协同序贯决策空间大小随着智能体数量和决策序列长度的增加呈指数增长。在长周期协作任务中,智能体需要通过持续配合的动作序列来完成任务,给稀疏正向奖励的搜索利用带来巨大挑战。
3、此外,多无人机协作需解决通信受限下的分布
...【技术保护点】
1.一种基于时序分层决策的多无人机协作策略学习方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于时序分层决策的多无人机协作策略学习方法,其特征在于,采用时序分层决策机制对原始序贯决策序列进行时序抽象,构造具备达到正向奖励状态能力的无人机宏观动作空间,包括:
3.根据权利要求1所述的基于时序分层决策的多无人机协作策略学习方法,其特征在于,根据当前观测、宏观动作以及原始动作,对预构建的分层策略进行训练;所述分层策略包括宏观策略和微观策略;所述宏观策略用于根据当前观测,选择宏观动作,其中各无人机每隔步选择一次宏观动作;所述微观策略用于每步
...【技术特征摘要】
1.一种基于时序分层决策的多无人机协作策略学习方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于时序分层决策的多无人机协作策略学习方法,其特征在于,采用时序分层决策机制对原始序贯决策序列进行时序抽象,构造具备达到正向奖励状态能力的无人机宏观动作空间,包括:
3.根据权利要求1所述的基于时序分层决策的多无人机协作策略学习方法,其特征在于,根据当前观测、宏观动作以及原始动作,对预构建的分层策略进行训练;所述分层策略包括宏观策略和微观策略;所述宏观策略用于根据当前观测,选择宏观动作,其中各无人机每隔步选择一次宏观动作;所述微观策略用于每步根据当前观测和最近一次选择的宏观动作,选择原始动作,包括:
4.根据权利要求3所述的基于时序分层决策的多无人机协作策略学习方法,其特征在于,将当前观测和宏观动作输入到所述微观策略,输出原始动作,包括:
5.根据权利要求3所述的基于时序分层决策的多无人机协作策略学习方法,其特征在于,无人...
【专利技术属性】
技术研发人员:李杰,陈钇廷,黄钰翀,习业勋,刘敏豪,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。