【技术实现步骤摘要】
本专利技术涉及加速强化学习算法,特别是指一种多无人机最优博弈受限加速强化学习控制方法及装置。
技术介绍
1、多智能体系统一致控制是最基本的协调方式。对于无人机群体,它确保每架无人机的信息如位置、速度和航向趋于一致,为后续的编队、分布式决策和协同规划提供基础。多无人机分布式控制具备良好的可扩展性与鲁棒性,可在局部通信条件下实现高效协同,降低通信和计算负担,提升系统的实时性与容错性。多无人机分布式最优博弈一致控制用以解决多个无人机在存在竞争、协作或资源约束条件下的最优协同控制问题,结合一致和博弈思想,使得无人机在存在资源冲突或多目标任务时,既能达成共识,又能优化个体或整体目标。例如,多个无人机灾区执行搜救和物资投送任务时,为了实现最大化任务效率、避免碰撞以及节能的目标,利用合作博弈分配任务点,即避免多个无人机去同一目标,通过一致控制在前往目标途中保持队形一致或路径协调。在实际应用中,由于无人机的执行器能力、系统设计、安全要求或环境条件对控制输入,包括推力、速度和角速度,施加了硬约束或软约束,例如一群无人机需编队通过一座狭窄的山谷或城市走廊,
...【技术保护点】
1.一种多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述S2的基于评判神经网络,逼近带双曲线正切函数和博弈邻居项的性能指标函数、无人机的最优受限控制输入和无人机最坏情况下的受限控制输入的过程,通过下述公式(1)-(3)表示:
3.根据权利要求2所述的多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述无人机i的相对状态误差通过下述公式(4)表示:
4.根据权利要求1所述的多无人机最优博弈受限加速强化学习控制方法,其特征在于,
...【技术特征摘要】
1.一种多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述方法包括:
2.根据权利要求1所述的多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述s2的基于评判神经网络,逼近带双曲线正切函数和博弈邻居项的性能指标函数、无人机的最优受限控制输入和无人机最坏情况下的受限控制输入的过程,通过下述公式(1)-(3)表示:
3.根据权利要求2所述的多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述无人机i的相对状态误差通过下述公式(4)表示:
4.根据权利要求1所述的多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述哈密尔顿-雅可比误差方程通过下述公式(5)表示:
5.根据权利要求1所述的多无人机最优博弈受限加速强化学习控制方法,其特征在于,所述包含当前信息和过去信息的带调节参数的求和平方误差通过下述公式(6)表示:
【专利技术属性】
技术研发人员:夏丽娜,范筱玥,马靖超,李擎,宋睿卓,鲁小雅,芮溢泽,袁立,李江昀,杨高富,张意坚,刘路,王圣然,唐梦兆,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。