【技术实现步骤摘要】
基于Transformer神经网络状态预测的无人机自主决策方法及装置
[0001]本专利技术涉及人工智能测技术,尤其涉及一种基于
Transformer
神经网络状态预测的无人机自主决策方法及装置
。
技术介绍
[0002]近年来,无人机以其价格低
、
安全性高
、
续航能力强
、
结构简单等优势,被广泛应用于军事和民用领域
。
随着无人机应用场景不断拓展
、
飞行品质不断提升,对其自主性要求也越来越高
。
序列决策模型是实现无人机自主飞行的关键技术,序列决策模型可以根据无人机感知到的外界环境进行准确的决策
。
[0003]随着当前人工智能技术的快速发展,强化学习方法作为解决序列决策模型的关键技术取得了显著成果
。
强化学习方法通过与环境的交互不断的提高自身策略,使得其能够有效应对环境实时变化的任务,为无人机自主决策提供了新的可选项
。
在无人机高纬连续控制决策任务中,强化学习方法能够快速从复杂高纬的状态特征中提取有效信息,并在连续的动作空间中执行动作以最大化累积奖励
。
由于无人机任务中的状态
、
动作空间的维度很高且需要在高纬连续的状态空间中进行自主决策,存在无人机自主决策任务中计算开销大
、
样本效率低且难以收敛的情况,因此想要实现无人机快速准确的自主飞行非常困难
。
技术实现思路
< ...
【技术保护点】
【技术特征摘要】
1.
一种基于
Transformer
神经网络状态预测的无人机自主决策方法,其特征在于,所述方法包括:步骤
A
:根据无人机实际任务场景,构建无人机的虚拟仿真环境,初始化无人机飞行策略,并构建公用数据缓冲池;步骤
B
:在所述虚拟仿真环境中,根据所述无人机飞行策略,向无人机模型发送预设次数的控制指令,并收集所述无人机模型根据所述控制指令执行飞行任务过程中的样本数据,并将所述样本数据存储到所述公用数据缓冲池中;步骤
C
:利用所述公用数据缓冲池中的样本数据对
Transformer
模型进行预训练,得到预训练的
Transformer
模型;步骤
D
:利用所述公用数据缓冲池中的样本数据训练强化学习模型,生成更新后的无人机飞行策略,其中,所述强化学习模型是根据所述预训练的
Transformer
模型以及预构建的智能体模型构建;步骤
E
:判断所述强化学习模型是否收敛;当所述强化学习模型没有收敛时,返回执行上述的步骤
B
,在所述虚拟仿真环境中,根据所述更新后的无人机飞行策略,向无人机模型发送预设次数的控制指令,并收集所述无人机模型根据所述控制指令执行飞行任务过程中的样本数据,并将所述样本数据存储到所述公用数据缓冲池中;当所述强化学习模型收敛时,利用所述强化学习模型中的
Transformer
模型进行无人机飞行过程中的自主决策
。2.
如权利要求1所述基于
Transformer
神经网络状态预测的无人机自主决策方法,其特征在于,所述步骤
B
包括:初始化当前的时间为
t
=0,并从
t
=0时刻开始到预设的最大仿真步长
t
=
T
e
时刻结束的时间段里,根据所述无人机飞行策略向无人模型发送控制指令;收集所述无人机模型根据所述控制指令执行飞行任务过程中的动作,状态信息及奖励反馈,并生成序列数据,将所述序列数据存储到所述公用数据缓冲池中
。3.
如权利要求1所述基于
Transformer
神经网络状态预测的无人机自主决策方法,其特征在于,所述步骤
C
包括:从所述公用数据缓冲池中随机不重复采样
b
条序列数据;根据每条所述序列数据,利用所述
Transformer
模型生成预测序列数据,并根据所述预测序列数据,生成预测行动轨迹;根据所述预测行动轨迹与所述公用数据缓冲池中的真实序列数据,对所述
Transformer
模型进行更新操作;在所述
Transformer
模型的更新操作达到
M
次时,输出最后一次更新的
Transformer
模型,作为预训练的
Transformer
模型
。4.
如权利要求1所述基于
Transformer
神经网络状态预测的无人机自主决策方法,其特征在于,所述利用所述公用数据缓冲池中的样本数据训练强化学习模型,生成更新后的无人机飞行策略,包括:从所述公用数据缓冲池中获取状态信息,将所述状态信息输入到预训练的
Transformer
模型的编码器中,得到潜在状态特征;
将所述潜在状态特征输入到
Transformer
模型的解码器中,得到预测行动轨迹和预测动作;将所述潜在状态特征和预测行动轨迹输入到智能体模型中,输出策略动作;分别计算所述预测动作和策略动作所对应的
Q
函数值,从所述预测动作和策略动作中选取
Q
函数值高的动作作为所述无人机模型在所述虚拟仿真环境中的执行飞行动作,得到更新后的无人机飞行策略
。5.
如权利要求1所述基于
Transformer
神经网络状态预测的无人机自主决策方法,其特征在于,所述分别计算所述预测动作和策略动作所对应的
Q
函数值,包括:采用下述方法计算所述
Q
函数值:
Q(s,a)
=
(1
‑
α
)*Q(s,a)+
α
*(r+
γ
*max(Q(s',a')))
其中,
α
是学习率,
r
是在状态信息
s
下采取动作
a
后的即时奖励,
γ
是折扣因子,
...
【专利技术属性】
技术研发人员:李晟泽,章杰元,姜浩,李渊,张峰,刘运韬,孟竹喧,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。