一种基于进化策略的多域行动序列智能优化系统及方法技术方案

技术编号:30547429 阅读:28 留言:0更新日期:2021-10-30 13:26
本发明专利技术提出了一种基于进化策略的多域行动序列智能优化系统及方法,将行动对象视为智能体,构建强化学习智能体模型,基于进化策略的超参数优化方法对行动策略网络进行优化,获取当前智能体的局部环境态势信息输入优化后的行动策略网络,得到各个待决策智能体的行动序列,对该行动序列解码得到各智能体的操作指令,基于操作指令控制智能体执行动作。本发明专利技术通过超参数优化方法能够解决现有技术中面对行动序列网络在复杂环境下学习效率低,训练过程漫长、网络训练过程不平稳等技术问题。网络训练过程不平稳等技术问题。网络训练过程不平稳等技术问题。

【技术实现步骤摘要】
一种基于进化策略的多域行动序列智能优化系统及方法


[0001]本专利技术属于深度强化学习和进化算法
,涉及进化策略算法在深度强化学习和行动序列网络优化中的应用,具体涉及一种基于进化策略的多域行动序列智能优化系统及方法。

技术介绍

[0002]多域行动任务中,方案计划的复杂度和囊括度呈指数级攀升,决策人员有限的决策能力越来越无法适应急剧变化的环境需求。且很多行动过程具有强烈的对抗性,双方行动之间共同作用于环境态势,无法单方面评价行动序列的优劣;行动改变态势,态势又反过来决定下一阶段的可执行动作,行动与态势之间具有复杂的关系。从大量可执行行动中选择出合适的行动并形成行动序列方案就显得尤为困难,必须依靠以计算机平台为基础的智能规划系统生成行动序列方案。辅佐决策人员在资源、装备、人员、空间和环境等多个方向综合分析行动与态势之间的复杂影响关系,对环境的趋势和走向做出预判,进而形成行动序列方案。
[0003]深度强化学习是目前求解策略问题的有效手段和主流方法,在很多学习任务上显示了其优异的性能。智能任务规划系统将深度强化学习技术与作战规划系统本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于进化策略的多域行动序列智能优化方法,包括多域行动模型,将该模型中的行动对象视为智能体,其特征在于:包括以下步骤,步骤1,采用基于AC强化学习框架下的MADDPG算法构建多域行动智能任务规划系统,包括Actor策略网络和Critic评价网络;步骤2,初始化环境态势信息,并对所有的环境态势信息进行预处理;步骤3,分析智能体具体的行动得到任务目标,将其作为初始条件输入到训练环境中;根据行动目的构造奖赏函数,智能体通过学习最大化奖赏函数进行训练,得到行动策略网络;步骤4,采用进化策略对行动策略网络进行训练优化,以获取最优超参数配置来训练行动策略网络;步骤5,获取当前待决策智能体的局部环境态势信息,输入到步骤4训练好的行动策略网络中,得到各个待决策智能体的行动序列,对其进行策略解码,得到各智能体的操作指令,通过执行该操作指令以控制各智能体执行新的动作。2.根据权利要求1所述的基于进化策略的多域行动序列智能优化方法,其特征在于:所述步骤2中的环境态势信息,包括实时位置、速度、航向参数以及当前的地理环境信息。3.根据权利要求2所述的基于进化策略的多域行动序列智能优化方法,其特征在于:所述步骤4的行动序列网络的权值通过深度强化学习的梯度优化方法来进行更新。4.根据权利要求1或3所述的基于进化策略的多域行动序列智能优化方法,其特征在于:所述步骤4中训练优化方法为:步骤4.1,选取待优化的行动序列网络的模型结构超参数和算法行为超参数;步骤4.2,随机初始化交互环境,设置模型结构超参数优化阶段的最大迭代次数为Str_Gen_max,单轮最大梯度优化次数为Str_Step_max,设置算法行为超参数优化阶段的最大迭代次数为Alg_Gen_max,单轮最大梯度优化次数为Alg_Step_max;步骤4.3,随机初始化1个策略网络及其算法行为超参数,将其复制为N个相同的策略网络,对得到的N个策略网络随机初始化其模型结构超参数配置;步骤4.4,将N个智能体进行环境交互,根据当前的超参数配置通过深度强化学习的梯度优化方法来提升自身策略,当梯度优化次数达到Str_Step_max时,进入步骤4.5;步骤4.5,对N个策略网络进行适应度评估后对N个策略网络的模型结构超参数进行进化策略操作,产生下一代的N个策略网络及其模型结构超参数,并记录当前代数Str_Gen,当其小于Str_Gen_max时,转至步骤4.4;直至其达到最大迭代次数Str_Gen_max,输出当前适应度最大的策略网络;步骤4.6,将进行模型结构超参数优化训练后得到的适应度最大的策略网络复制N份,构成群体P,并对得到的N个策略网络随机初始化N个算法行为超参数配置;步骤4.7,N个智能体在各自当前的超参数配置下,独立并行地进行环境交互进行深度强化学习来进行策略提升,一旦梯度优化次数达到预设值Alg_Step_max,所有的智能体停止学习,进入步骤4.8;步骤4.8,对N个策略网络进行适应度评估后对N个策略网络...

【专利技术属性】
技术研发人员:刘海颖何兆一孙颢吴坤谢远龙李志豪
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1