一种基于并行多DQN的多域智能体协同优化方法技术

技术编号:42005278 阅读:70 留言:0更新日期:2024-07-12 12:26
本发明专利技术提出了一种基于并行多DQN的多域智能体协同优化方法,将海陆空行动对象建模为智能体,针对多域智能体时间、空间、频率及能力四个维度结合任务目标搭建模型,使用四个并行的DQN网络优化多域智能体“时空频能”对应的动作价值Q值,使用神经网络优化Q值优先级权重,组合得到多域智能体协同最优动作集。本发明专利技术通过并行DQN解决多域智能体在复杂多变环境下参数维数巨大,训练速度缓慢,训练过程不稳定性技术问题,能够满足现实条件下的多域智能体协同任务需求。

【技术实现步骤摘要】

本专利技术属于强化学习,涉及深度强化学习在多域智能体任务方案优化中的应用,特别涉及一种基于并行多dqn的多域智能体协同优化方法。


技术介绍

1、多域联合作战是未来战争发展的必然趋势,在新一轮科技革命和产业革命的推动下,通过整合不同领域和不同层级的能力,打破军种、领域之间的界限,创造和利用协同效应,实现同步跨域火力和全域机动,获得相对优势。由于多域作战任务中战场区域情况复杂、作战单元数量庞大,向下细分到人员调度、物资占用、装备使用、任务时序及空间分配等,需要强化学习等智能方法对多域作战任务方案进行优化。

2、深度强化学习(deep reinforcement learning,drl)将深度学习的感知能力和强化学习的决策能力相结合。深度q学习算法(deep q learning,dqn)是drl其中的一种基于值迭代的算法,结合了q-learning和神经网络,将深度学习的函数近似能力和表征能力融入到强化学习。


技术实现思路

1、一种基于并行多dqn的多域智能体协同优化方法,将任务中水域、陆域及空域的本文档来自技高网...

【技术保护点】

1.一种基于并行多DQN的多域智能体协同优化方法,其特征在于,将任务中行动对象建模为智能体,对“时空频能”四个维度进行参数优化,包括以下步骤:

2.根据权利要求1所述的基于并行多DQN的多域智能体协同优化方法,其特征在于,

3.根据权利要求1或2所述的基于并行多DQN的多域智能体协同优化方法,其特征在于,多域智能体时域建模,智能体时域奖励函数定义为:Rt=其中ηv为智能体无行动指令奖励参数,ηc为行动指令冲突奖励参数,△Tv为无行动指令时长,△Tc为行动指令冲突时长,T为行动总时长。

4.根据权利要求1所述的基于并行多DQN的多域智能体协同优化方法,其...

【技术特征摘要】

1.一种基于并行多dqn的多域智能体协同优化方法,其特征在于,将任务中行动对象建模为智能体,对“时空频能”四个维度进行参数优化,包括以下步骤:

2.根据权利要求1所述的基于并行多dqn的多域智能体协同优化方法,其特征在于,

3.根据权利要求1或2所述的基于并行多dqn的多域智能体协同优化方法,其特征在于,多域智能体时域建模,智能体时域奖励函数定义为:rt=其中ηv为智能体无行动指令奖励参数,ηc为行动指令冲突奖励参数,△tv为无行动指令时长,△tc为行动指令冲突时长,t为行动总时长。

4.根据权利要求1所述的基于并行多dqn的多域智能体协同优化方法,其特征在于,多域智能体空域建模,避免智能体在同一时段集中在同一空间区域,实现空间资源的有效利用与防撞,空域奖励函数定义为rspace=σηquantityqt+∑ηcollisionnnode,t时刻在同一空间区域a(i,j,k)的智能体数量为qt,t时刻获得的区域块智能体数量惩罚为rquantity=ηquantityqt,t时刻当前空间块碰撞惩罚为rcollision=ηcollisionnnode,ηcollision为碰撞惩罚系数,nnode为路径交点数量,ηquantity为数量惩罚系数。

5.根据权利要求1所述的基于并行多dqn的多域智能体协同优化方法,其特征在于,多域智能体频域建模:从时间和空间干扰条件入手,采用规避电磁干扰区的方法,使用不同的波段或者调节智能体之间的距离或角度,频域优化参数由电磁干扰源与智能体距离和电磁干扰源辐射角度耦合生成,频域奖励函数定义为:rfrequency=ηfrequencyd,其中ηfrequency为智能体频率奖励参数,与干扰强度成负相关,d为智能体与干扰源距离。

6.根据权利要求...

【专利技术属性】
技术研发人员:刘海颖李俊璋肖盈飞刘瑞航刘宇辰
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1