【技术实现步骤摘要】
本专利技术涉及无人机,特别是涉及一种基于per-matd3深度强化学习的无人机动态博弈模型及其工作方法。
技术介绍
1、近年来,基于强化学习的无人机群决策算法研究在国内外均展现出了蓬勃的发展态势,成为提升无人机自主决策能力和协同作战效率的关键技术之一。在国内,许多研究公司均投入到这一前沿领域的研究中。他们通过构建多智能体系统模型,将单个无人机视为智能体,并应用强化学习算法解决无人机群在复杂环境中的序贯决策问题。这些研究不仅涵盖了无人机群的任务规划、路径规划、协同作战等多个方面,还提出了多种优化算法,如goose、apo、dcs等,以应对无人机群在复杂战场环境中面临的挑战。通过这些研究,国内在无人机群自主决策与控制方面取得了显著成果,为无人机群的广泛应用奠定了坚实基础。
2、与此同时,国外在基于强化学习的无人机群决策算法研究方面也取得了丰硕成果。美国空军科学顾问委员会等机构将无人机群视为未来无人机应用的重要趋势,并在此方向上进行了深入探索。欧洲的信息社会技术计划(ist)也开展了类似项目,如comets,旨在通过实时控制技术提
...【技术保护点】
1.一种基于PER-MATD3深度强化学习的无人机动态博弈模型,其特征在于,包括MATD3算法模块、PER排序模块以及样本重要性评价模块:
2.如权利要求1所述的基于PER-MATD3深度强化学习的无人机动态博弈模型,其特征在于,所述MATD3算法模块中观测o包括状态s、动作a和奖励r,所述状态s包括无人机位置、偏航角、俯仰角、速度;所述动作a包括无人机的机动策略,对应博弈模型中纯策略的机动动作。
3.如权利要求1所述的基于PER-MATD3深度强化学习的无人机动态博弈模型,其特征在于,所述MATD3算法模块中,对于第i个智能体,从经验池D中随
...【技术特征摘要】
1.一种基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,包括matd3算法模块、per排序模块以及样本重要性评价模块:
2.如权利要求1所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中观测o包括状态s、动作a和奖励r,所述状态s包括无人机位置、偏航角、俯仰角、速度;所述动作a包括无人机的机动策略,对应博弈模型中纯策略的机动动作。
3.如权利要求1所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中,对于第i个智能体,从经验池d中随机选择样本,目标动作ai′(si′)如下式所示:
4.如权利要求1所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中critic1网络的损失函数如下式如下:
5.如权利要求4所述的基于per-matd3深度强化学习的无人机动态博弈模型,其特征在于,所述matd3算法模块中critic1网...
【专利技术属性】
技术研发人员:张磊,李泽群,池远,许佳龙,郑晓园,张琨,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。