基于有限状态机和深度强化学习的任务智能体实现方法技术

技术编号：42044853 阅读：26 留言：0更新日期：2024-07-16 23:27

本发明专利技术公开了一种基于有限状态机和深度强化学习的任务智能体实现方法，应用于双方对抗过程中，双方分别包括预设数量的编队，每个编队均有执行任务，双方对抗过程中：将执行任务划分为预设数量的执行阶段，并构建执行阶段之间的转换条件；将执行阶段作为有限状态机的状态，根据执行阶段之间的转换条件执行有限状态机；对每个执行阶段设置智能体，配置各智能体的动作空间；基于有限状态机和动作空间对各智能体进行训练；本发明专利技术利用有限状态机技术实现对执行任务的分阶段执行，能够对包含多个行动序列的复杂执行任务进行科学的流程组织和阶段行为执行，确保任务执行流程的合理性、简洁性和扩展性，提升模块的复用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于对抗博弈领域，具体涉及一种基于有限状态机和深度强化学习的任务智能体实现方法。

技术介绍

1、在模拟复杂的对抗作战场景中，指挥员根据作战态势制定和下发执行任务，期望作战编队能根据任务要求实现智能自主作战。但执行任务并不仅仅面向单一态势的局部控制，从开始出动到返航结束具备复杂的行动序列，如何合理化、流程化、简洁化地执行任务，是一个亟待解决的问题。此外，如何构建一个强大的任务智能体，能够在任务编队面临不同阶段态势时实现智能自主控制，也是一个需要解决的问题。

2、现有技术中，关于智能体的构建，有些研究针对任务执行过程中的单一对抗场景进行智能体训练，例如空空战术对抗智能体构建，这种方式对于单一阶段场景的战术战法研究起到一定的指导作用，但由于假定了单一阶段场景的初始状态，忽略了实际作战流程的复杂性和连贯性，由于复杂的战役执行任务有特定的执行顺序和阶段，很难成为一种复杂任务智能体的构建范式。

技术实现思路

1、本专利技术的目的在于针对解决
技术介绍
中提出的问题，提出一种基于有限状...

【技术保护点】

1.一种基于有限状态机和深度强化学习的任务智能体实现方法，应用于双方对抗过程中，双方分别包括预设数量的编队，每个编队均有执行任务，其特征在于：双方对抗过程中：

2.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法，其特征在于：所述基于有限状态机、动作空间、态势空间、神经网络结构和奖励函数对各智能体进行训练，包括：

3.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法，其特征在于：双方对抗过程中，一方训练、一方陪练，或双方同时训练。

4.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法，其特征在于：所...

【技术特征摘要】

3.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法，其特征在于：双方对抗过程中，一方训练、一方陪练，或双方同时训练。

4.如权利要求1所述的基于有限状态机和深度强化学习的任务智能体实现方法，其特征在于：所述态势空间包括任务执行编队所属方初始态势信息、任务执行编队所属方的对抗方初始态势信息、任务执...

【专利技术属性】
技术研发人员：孔德谦，朱燎原，夏少杰，刘静，王静波，刘会斌，
申请(专利权)人：中国电子科技集团公司第五十二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人