【技术实现步骤摘要】
基于规则约束训练的无人机集群智能任务执行方法和装置
本申请涉及无人机智能任务执行
,特别是涉及一种基于规则约束训练的无人机集群智能任务执行方法和装置。
技术介绍
随着无人机小型化、智能化、集群化技术快速发展,无人机集群已经具有了智能任务执行能力,并已经应用于完成多种类型的任务。区域防御任务是无人机集群应用中最为常见的任务类型之一。目前,对无人机集群在执行区域防御任务时,如何针对多个移动的防御对象实现有效的对抗和防御效果这一问题的研究还处在初步阶段。在对无人机集群进行训练时,由于受训练的无人机个体和人类思维方式不同,不能通过已有的经验直接得知在某个状态下的最优策略,因此训练得到的无人机个体和无人机集群其获得的最优策略并不一定是实际上的最优策略,无法很好地确保对防御对象实现有效的快速追击、驱逐出境、精准打击等需要的操作。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能确保无人机个体获得最优行动策略的一种基于规则约束训练的无人机集群智能任务执行方法和装置。一种基于规则约束训练的无人机集群 ...
【技术保护点】
1.一种基于规则约束训练的无人机集群智能任务执行方法,其特征在于,所述方法包括:/n根据预设的无人机集群防御任务训练数据得到对应的训练环境数据,以待训练的无人机集群中的无人机为智能体,基于MADDPG算法建立所述训练环境数据对应的无人机集群任务执行模型;所述训练环境数据包括防御对象集合;/n根据无人机的任务能力参数、所述训练环境数据和预设的任务目标数据,得到所述无人机集群任务执行模型中所述智能体的动作集、状态集和单步奖励函数;/n使用预设的约束规则得到所述智能体从所述动作集中获取下一步动作时的动作子集,使用所述动作子集、所述状态集和所述单步奖励函数训练所述无人机集群任务执行 ...
【技术特征摘要】
1.一种基于规则约束训练的无人机集群智能任务执行方法,其特征在于,所述方法包括:
根据预设的无人机集群防御任务训练数据得到对应的训练环境数据,以待训练的无人机集群中的无人机为智能体,基于MADDPG算法建立所述训练环境数据对应的无人机集群任务执行模型;所述训练环境数据包括防御对象集合;
根据无人机的任务能力参数、所述训练环境数据和预设的任务目标数据,得到所述无人机集群任务执行模型中所述智能体的动作集、状态集和单步奖励函数;
使用预设的约束规则得到所述智能体从所述动作集中获取下一步动作时的动作子集,使用所述动作子集、所述状态集和所述单步奖励函数训练所述无人机集群任务执行模型中的所述智能体;其中,所述约束规则是根据所述智能体和防御对象的相对位置数据确定的;
使用训练好的无人机集群执行无人机集群防御任务。
2.根据权利要求1所述的方法,其特征在于,所述约束规则的定义方式包括:
获取所述智能体和防御对象的相对距离值,当所述相对距离值持续减小时:
当所述相对距离值在预设的区间内时,获取使所述智能体最快离开所述防御对象的作用区域的航向角,根据所述航向角得到所述智能体从所述动作集中获取下一步动作时的动作子集。
3.根据权利要求1所述的方法,其特征在于,所述约束规则的定义方式包括:
获取所述智能体和防御对象的相对距离值,当所述相对距离值持续减小时:
当V/dis大于预设值时,将所述智能体的加速度值设置为大于零,当V/dis小于预设值时,将所述智能体的加速度值设置为小于零;其中,V表示所述智能体的速度,dis表示所述相对距离值,V/dis表示所述智能体的速度距离比值;
根据所述加速度值得到所述智能体从所述动作集中获取下一步动作时的动作子集。
4.根据权利要求1所述的方法,其特征在于,所述单步奖励函数的获得方式包括:
获取所述防御对象集合中预设的威胁值为最高的最大威胁目标,获取所述智能体和所述最大威胁目标的相对距离值;
根据所述训练环境数据和无人机的所述任务能力参数,得到所述智能体对所述防御对象的防御效果数据,得到所述防御对象对所述智能体的抵抗效果数据,以及得到所述防御对象对预设的保护区域的攻击效果数据;
根据所述训练环境数据得到所述防御对象的航向角,并得到所述防御对象和所述智能体的航向夹角;
根据所述智能体对应的所述相对距离值、所述防御效果数据、所述抵抗效果数据、所述攻击效果数据和所述航向夹角,得到单步奖励函数的值;其中,所述单步奖励函数的值与所述相对距离值、所述防御效果数据和所述航向夹角分别为正相关关系,所述单步奖励函数的值与所述抵抗效果数据和所述攻击效果数据分别为负相关关系。
5.根据权利要求1...
【专利技术属性】
技术研发人员:高显忠,项磊,侯中喜,郭正,贾高伟,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。