【技术实现步骤摘要】
本专利技术属于对抗博弈领域,具体涉及一种基于有限状态机和深度强化学习的任务智能体实现方法。
技术介绍
1、在模拟复杂的对抗作战场景中,指挥员根据作战态势制定和下发执行任务,期望作战编队能根据任务要求实现智能自主作战。但执行任务并不仅仅面向单一态势的局部控制,从开始出动到返航结束具备复杂的行动序列,如何合理化、流程化、简洁化地执行任务,是一个亟待解决的问题。此外,如何构建一个强大的任务智能体,能够在任务编队面临不同阶段态势时实现智能自主控制,也是一个需要解决的问题。
2、现有技术中,关于智能体的构建,有些研究针对任务执行过程中的单一对抗场景进行智能体训练,例如空空战术对抗智能体构建,这种方式对于单一阶段场景的战术战法研究起到一定的指导作用,但由于假定了单一阶段场景的初始状态,忽略了实际作战流程的复杂性和连贯性,由于复杂的战役执行任务有特定的执行顺序和阶段,很难成为一种复杂任务智能体的构建范式。
技术实现思路
1、本专利技术的目的在于针对解决
技术介绍
中提出的问题,提出一种基于有限状 ...
【技术保护点】
1.一种基于有限状态机和深度强化学习的任务智能体实现方法,应用于双方对抗过程中,双方分别包括预设数量的编队,每个编队均有执行任务,其特征在于:双方对抗过程中:
2.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法,其特征在于:所述基于有限状态机、动作空间、态势空间、神经网络结构和奖励函数对各智能体进行训练,包括:
3.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法,其特征在于:双方对抗过程中,一方训练、一方陪练,或双方同时训练。
4.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现
...【技术特征摘要】
1.一种基于有限状态机和深度强化学习的任务智能体实现方法,应用于双方对抗过程中,双方分别包括预设数量的编队,每个编队均有执行任务,其特征在于:双方对抗过程中:
2.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法,其特征在于:所述基于有限状态机、动作空间、态势空间、神经网络结构和奖励函数对各智能体进行训练,包括:
3.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法,其特征在于:双方对抗过程中,一方训练、一方陪练,或双方同时训练。
4.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法,其特征在于:所述态势空间包括任务执行编队所属方初始态势信息、任务执行编队所属方的对抗方初始态势信息、任务执...
【专利技术属性】
技术研发人员:孔德谦,朱燎原,夏少杰,刘静,王静波,刘会斌,
申请(专利权)人:中国电子科技集团公司第五十二研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。