当前位置: 首页 > 专利查询>东南大学专利>正文

一种无人机集群自主行为的控制方法及系统技术方案

技术编号:34534855 阅读:13 留言:0更新日期:2022-08-13 21:29
本发明专利技术公开了无人机控制领域的一种无人机集群自主行为的控制方法及系统,包括:接收其他无人机发送的观测信息m

【技术实现步骤摘要】
一种无人机集群自主行为的控制方法及系统


[0001]本专利技术属于无人机控制领域,具体涉及一种无人机集群自主行为的控制方法及系统。

技术介绍

[0002]在日益复杂的作战环境和作战任务下,传统无人系统的人机交互技术无法支持操作/指挥人员对集群进行实时决策与控制,需要无人机具备自主、智能完成任务的能力,并展开协同来应对战场的复杂性和动态性。如何实现在不确定作战环境下对战场态势变化的自主响应将是无人机集群完成复杂任务的关键。
[0003]同时如何类比指挥员或驾驶员的决策过程来研究无人机的自主性行为和决策机制,对理解、设计和实现无人机自主系统具有重要意义。通信是无人机集群协同决策控制的基础。在通信资源稀缺的战场环境下实现无人机集群的高效通信具有重要意义。目前多智能体强化学习方法在无人机集群自主协同策略研究中应用广泛,但多数方法未考虑有限通信资源带来的影响。

技术实现思路

[0004]本专利技术的目的在于提供一种无人机集群自主行为的控制方法及系统,在通信资源稀缺的战场环境下,提高无人机在行为决策过程中的通信效率,保证无人机在不同带宽条件下执行任务。
[0005]为达到上述目的,本专利技术所采用的技术方案是:
[0006]本专利技术第一方面提供了一种无人机集群自主行为的控制方法,包括:
[0007]接收其他无人机发送的观测信息m
i
并采集周围环境的感知信息o
i
,获取全局态势信息;
[0008]将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作a
i
;将感知信息o
i
作为观测信息m
i+1
至其他无人机;
[0009]所述自主行为决策模型的训练过程包括:
[0010]基于部分可观马尔可夫决策过程构建自主行为决策模型;
[0011]通过卷积神经网络对自主行为决策模型进行模拟训练,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励R
task
,根据信道容量约束条件计算无人机集群的宽带奖励R
comm

[0012]根据无人机集群的训练状态信息、宽带奖励R
comm
和任务奖励R
task
建立损失函数L(θ
Qi
)和累计回报期望值函数J(μ
i
);
[0013]训练过程中利用损失函数L(θ
Qi
)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μ
i
)的策略梯度对自主行为决策模型进行迭代更新。
[0014]优选的,将感知信息o
i
作为观测信息m
i+1
发送至其他无人机的方法包括:
[0015]通过DSDV协议对各无人机的路由设定序列号,按照信道容量约束条件将观测信息
m
i+1
沿无交叉的有向树网在无人机集群中传播;
[0016]所述信道容量约束条件包括:无人机之间的链路为单向链路,各无人机同一时刻间隙发送观测信息m的最大次数为1,观测信息m自发送到无人机集群中最后无人机接收到观测信息m
i+1
的时延小于一个时刻间隙。
[0017]优选的,根据信道容量约束条件计算无人机集群的宽带奖励R
comm
,表达公式为:
[0018][0019]公式中,g
comm,i
表示为第i无人机的通信资源分配量,g
comm
表示为无人机集群的通信资源分配量,R
comm,i
表示为第i无人机的宽带奖励;k
comm
表示为码元离散电平的数目。
[0020][0021][0022]公式中,B表示为无人机之间的信道带宽;N表示为无人机集群中无人机的数量;L表示为观测信息中符号数量;N
b
表示为每个符号所占比特的数量;n
m
表示为发送观测信息的无人机数量。
[0023]优选的,通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励R
comm
和任务奖励R
task
并存入经验池D;
[0024]所述无人机集群的状态训练信息包括无人机集群中各无人机的自身状态s
i
、动作a
i
、感知信息o
i
、观测信息m
i
、状态评价函数Q的参数θ
Q
和自主行为决策模型的参数θ
μ

[0025]将经验池D中状态评价函数Q的参数θ
Q
历史状态记作h
Q
;将经验池D中自主行为决策模型的参数θ
μ
历史状态记作h
μ

[0026]优选的,通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括:采用Recurrent Actor

Critic神经网络对自主行为决策模型进行模拟训练,Recurrent Actor子神经网络对自主行为决策模型进行模拟;Recurrent Critic网络对状态评价函数Q进行模拟。
[0027]优选的,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括:
[0028]通过将全局态势信息输入自主行为决策模型,获取无人机动作a
i
的决策;
[0029]通过运动模型对无人机动作a
i
进行执行;所述状态评价函数Q根据执行结果进行评价;
[0030]所述运动模型表达公式为:
[0031][0032]公式中,x
i

表示为无人机执行动作a
i
后的自身状态s
i

的横向坐标;y
i

表示为无人机执行动作a
i
后的自身状态s
i

的纵向坐标;x
i
表示为无人机执行动作a
i
前的自身状态s
i
的横向坐标;y
i
表示为无人机执行动作a
i
前的自身状态s
i
的纵向坐标;v
i
表示为无人机执行
动作a
i
的速度;表示为无人机执行动作a
i
的航向角。
[0033]优选的,利用损失函数L(θ
Qi
)对状态评价函数Q进行迭代更新的方法包括:
[0034]由经验池D随机抽取T个样本;样本包括无人机第j时刻的自身状态s
j
、无人机第j时刻的动作a
j
、无人机第j时刻执行动作a
j
后的自身状态s
j

和第i无人机第j时刻的奖励值...

【技术保护点】

【技术特征摘要】
1.一种无人机集群自主行为的控制方法,其特征在于,包括:接收其他无人机发送的观测信息m
i
并采集周围环境的感知信息o
i
,获取全局态势信息;将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作a
i
;将感知信息o
i
作为观测信息m
i+1
至其他无人机;所述自主行为决策模型的训练过程包括:基于部分可观马尔可夫决策过程构建自主行为决策模型;通过卷积神经网络对自主行为决策模型进行模拟训练,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励R
task
,根据信道容量约束条件计算无人机集群的宽带奖励R
comm
;根据无人机集群的训练状态信息、宽带奖励R
comm
和任务奖励R
task
建立损失函数L(θ
Qi
)和累计回报期望值函数J(μ
i
);训练过程中利用损失函数L(θ
Qi
)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μ
i
)的策略梯度对自主行为决策模型进行迭代更新。2.根据权利要求1所述的一种无人机集群自主行为的控制方法,其特征在于,将感知信息o
i
作为观测信息m
i+1
发送至其他无人机的方法包括:通过DSDV协议对各无人机的路由设定序列号,按照信道容量约束条件将观测信息m
i+1
沿无交叉的有向树网在无人机集群中传播;所述信道容量约束条件包括:无人机之间的链路为单向链路,各无人机同一时刻间隙发送观测信息m的最大次数为1,观测信息m自发送到无人机集群中最后无人机接收到观测信息m
i+1
的时延小于一个时刻间隙。3.根据权利要求2所述的一种无人机集群自主行为的控制方法,其特征在于,根据信道容量约束条件计算无人机集群的宽带奖励R
comm
,表达公式为:,表达公式为:,表达公式为:公式中,g
comm,i
表示为第i无人机的通信资源分配量,g
comm
表示为无人机集群的通信资源分配量,R
comm,i
表示为第i无人机的宽带奖励;k
comm
表示为码元离散电平的数目;B表示为无人机之间的信道带宽;N表示为无人机集群中无人机的数量;L表示为观测信息中符号数量;N
b
表示为每个符号所占比特的数量;n
m
表示为发送观测信息的无人机数量。4.根据权利要求3所述的一种无人机集群自主行为的控制方法,其特征在于,通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励R
comm
和任务奖励R
task
并存入经验池D;所述无人机集群的状态训练信息包括无人机集群中各无人机的自身状态s
i
、动作a
i
、感知信息o
i
、观测信息m
i
、状态评价函数Q的参数θ
Q
和自主行为决策模型的参数θ
μ
;将经验池D中状态评价函数Q的参数θ
Q
历史状态记作h
Q
;将经验池D中自主行为决策模型的参数θ
μ
历史状态记作h
μ
。5.根据权利要求4所述的一种无人机集群自主行为的控制方法,其特征在于,通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括:
采用Recurrent Actor

Critic神经网络对自主行为决策模型进行模拟训练,Recurrent Actor子神经网络对自主行为决策模型进行模拟;Recurrent Critic网络对状态评价函数Q进行模拟。6.根据权利要求4所述的一种无人机集群自主行为的控制方法,其特征在于,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括:通过将全局态势信息输入自主行为决策模型,获取无人机动作a
i
的决策;...

【专利技术属性】
技术研发人员:张婷婷宋爱国董会
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1