基于PER-MATD3深度强化学习的无人机动态博弈模型及其工作方法技术

技术编号:45098972 阅读:15 留言:0更新日期:2025-04-25 18:38
本发明专利技术公开了一种基于PER‑MATD3深度强化学习的无人机动态博弈模型及其工作方法,包括MATD3算法模块、PER排序模块以及样本重要性评价模块,本发明专利技术构建了MATD3的算法框架,并引入优先经验回放(Prioritized Experience Replay,PER)方法对其进行改进,PER方法根据每个经验数据的重要性对其进行优先级排序,并且能够在采样时多次选择更重要的经验,从而提高学习效率,但由于PER方法会频繁地使用具有较高TD误差的样本,虽然能够提高学习效率,会不可避免地带来偏差,为了避免训练时出现偏差导致振荡甚至离散,引入重要性采样方法,适当降低TD误差高的样本权重,使训练时每个样本在梯度下降时的影响相同,从而保证训练结果的收敛性。

【技术实现步骤摘要】

本专利技术涉及无人机,特别是涉及一种基于per-matd3深度强化学习的无人机动态博弈模型及其工作方法。


技术介绍

1、近年来,基于强化学习的无人机群决策算法研究在国内外均展现出了蓬勃的发展态势,成为提升无人机自主决策能力和协同作战效率的关键技术之一。在国内,许多研究公司均投入到这一前沿领域的研究中。他们通过构建多智能体系统模型,将单个无人机视为智能体,并应用强化学习算法解决无人机群在复杂环境中的序贯决策问题。这些研究不仅涵盖了无人机群的任务规划、路径规划、协同作战等多个方面,还提出了多种优化算法,如goose、apo、dcs等,以应对无人机群在复杂战场环境中面临的挑战。通过这些研究,国内在无人机群自主决策与控制方面取得了显著成果,为无人机群的广泛应用奠定了坚实基础。

2、与此同时,国外在基于强化学习的无人机群决策算法研究方面也取得了丰硕成果。美国空军科学顾问委员会等机构将无人机群视为未来无人机应用的重要趋势,并在此方向上进行了深入探索。欧洲的信息社会技术计划(ist)也开展了类似项目,如comets,旨在通过实时控制技术提升无人机群的协同作战本文档来自技高网...

【技术保护点】

1.一种基于PER-MATD3深度强化学习的无人机动态博弈模型,其特征在于,包括MATD3算法模块、PER排序模块以及样本重要性评价模块:

2.如权利要求1所述的基于PER-MATD3深度强化学习的无人机动态博弈模型,其特征在于,所述MATD3算法模块中观测o包括状态s、动作a和奖励r,所述状态s包括无人机位置、偏航角、俯仰角、速度;所述动作a包括无人机的机动策略,对应博弈模型中纯策略的机动动作。

3.如权利要求1所述的基于PER-MATD3深度强化学习的无人机动态博弈模型,其特征在于,所述MATD3算法模块中,对于第i个智能体,从经验池D中随机选择样本,目标动作...

【技术特征摘要】

1.一种基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,包括matd3算法模块、per排序模块以及样本重要性评价模块:

2.如权利要求1所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中观测o包括状态s、动作a和奖励r,所述状态s包括无人机位置、偏航角、俯仰角、速度;所述动作a包括无人机的机动策略,对应博弈模型中纯策略的机动动作。

3.如权利要求1所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中,对于第i个智能体,从经验池d中随机选择样本,目标动作ai′(si′)如下式所示:

4.如权利要求1所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中critic1网络的损失函数如下式如下:

5.如权利要求4所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中critic1网...

【专利技术属性】
技术研发人员:张磊李泽群池远许佳龙郑晓园张琨
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1