基于强化学习的无人机知识模型组合的参数寻优方法技术

技术编号:35728298 阅读:18 留言:0更新日期:2022-11-26 18:27
本申请涉及一种基于强化学习的无人机知识模型组合的参数寻优方法。所述方法包括:利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,根据每个原子动作的评价值对预先构建的参数优化网络进行训练,利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。采用本方法能够提高无人机知识模型组合准确率。本方法能够提高无人机知识模型组合准确率。本方法能够提高无人机知识模型组合准确率。

【技术实现步骤摘要】
基于强化学习的无人机知识模型组合的参数寻优方法


[0001]本申请涉及数据处理
,特别是涉及一种基于强化学习的无人机知识模型组合的参数寻优方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着无人机自主控制技术的发展,传统基于逻辑规划与运筹计算等无人机知识模型技术得到长足进展,相关模型通常具有两个特点:一是需要依托经验配置超参数才能实施计算,二是实际应用中需要将多个先验知识模型进行组合使用,即需要前序模型为后序模型计算提供输入。因此,当下针对此类超参数型模型组合通常是使用“固定模型组合+固定经验参数”的形式进行应用的。
[0003]然而,目前固定无人机知识模型组合基础上的固定经验参数组合的方式难以依据态势或情况的变化动态调整模型超参数值,因而无法最大化发挥模型效能,造成计算准确度降低、规划质量下降等问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高无人机知识模型组合准确率的基于强化学习的无人机知识模型组合的参数寻优方法、装置、计算机设备和存储介质。
[0005]一种基于强化学习的无人机知识模型组合的参数寻优方法,所述方法包括:获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;无人机知识模型组合对应的超参数作为组合动作;无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;对组合动作进行结构化分解,得到多个一维原子动作;利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络;利用训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;根据每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;利用训练好的参数优化网络对待优化的无人机知识模型组合的参数进行优化。
[0006]在其中一个实施例中,组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数;历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用组合动作损失函数对预先构建的组合动作网络进行训练,得到训练好的组合动作网络,包括:根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数;评价值包含目标值和估计值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。
[0007]在其中一个实施例中,根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数,包括:根据环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为其中,表示基于贝尔曼公式评价值的误差期望值,表示环境及时反馈值,表示损失因子,表示在t+1时刻无人机知识模型组合处于态势信息时的对应的组合动作的目标值,表示对态势信息的编码,表示时序状态编码下的策略,即所述时序状态编码下采取相关动作的相应概率值,表示在t时刻无人机知识模型组合处于态势信息时的对应的组合动作的估计值。
[0008]在其中一个实施例中,根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数,包括:根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数为其中,m表示参数样本的数量,表示在样本j+1中无人机知识模型组合处于态势信息时的对应的组合动作的目标值,表示在样本j中无人机知识模型组合处于态势信息时的对应的组合动作的估计值。
[0009]在其中一个实施例中,利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,包括:利用多个原子动作对应的动作评价值的差值构建原子动作损失函数为其中,表示前一个原子动作Q值与其后原子动作差值和的期望值,Q值表示
状态u下采用动作a的价值,N表示原子动作个数,表示原子动作的序号,表示第k个原子动作的状态值,表示第k个原子动作,表示第k个原子动作的Q值。
[0010]在其中一个实施例中,预先设置的训练约束条件为,其中,表示在t时刻处于态势信息时的对应的组合动作的评价值,表示处于态势信息时的第N

1个原子动作的状态值对应的原子动作的评价值。
[0011]在其中一个实施例中,根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络,包括:根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数;利用混合损失函数对初始原子动作评价网络进行训练,得到训练好的原子动作评价网络。
[0012]根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数,包括:根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出构建组合动作和原子动作评价值之间的混合损失函数为其中,表示处于态势信息时的对应的组合动作的评价值,表示对态势信息的编码,表示处于态势信息时的第N个原子动作的状态值对应的原子动作的评价值,表示对第k个原子动作的状态值的编码。
[0013]在其中一个实施例中,根据每个原子动作的评价值对预先构建的参数优化网络进行训练的损失函数为其中,表示参数优化网络中的可学习参数,表示第k个原子动作的状态值的编码。
[0014]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;无人机知识模型组合对应的超参数作为组合动作;无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;对组合动作进行结构化分解,得到多个一维原子动作;利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;根据环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失
函数,利用组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;利用多个原子动作对应的动作评价值的差值构建原子动作损失函数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的无人机知识模型组合的参数寻优方法,其特征在于,所述方法包括:获取待优化的无人机知识模型组合和历史时刻无人机知识模型的参数样本;所述无人机知识模型组合对应的超参数作为组合动作;所述无人机知识模型组合中的无人机知识模型对应的超参数作为原子动作;对所述组合动作进行结构化分解,得到多个一维原子动作;利用无人机知识模型组合在预先设置的周期内对目标区域执行任务,得到当前时刻无人机知识模型组合的环境及时反馈值;根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用所述组合动作损失函数对预先构建的组合动作神经网络进行训练,得到训练好的组合动作评价网络;利用多个原子动作对应的动作评价值的差值构建原子动作损失函数,根据所述原子动作损失函数对预先构建的原子动作神经网络进行训练,得到初始原子动作评价网络;根据预先设置的训练约束条件、训练好的组合动作网络的输出和初始原子动作评价网络的输出对所述初始原子动作评价网络进行训练,得到训练好的原子动作评价网络;利用所述训练好的原子动作评价网络对多个一维原子动作序列进行评价,得到每个原子动作的评价值;根据所述每个原子动作的评价值对预先构建的参数优化网络进行训练,得到训练好的参数优化网络;利用所述训练好的参数优化网络对所述待优化的无人机知识模型组合的参数进行优化。2.根据权利要求1所述的方法,其特征在于,所述组合动作损失函数包括当前时刻组合动作损失函数和历史时刻组合动作损失函数;所述历史时刻无人机知识模型的参数样本中包含当前时刻之前的所有时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值;根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建组合动作损失函数,利用所述组合动作损失函数对预先构建的组合动作网络进行训练,得到训练好的组合动作网络,包括:根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数;所述评价值包含目标值和估计值;根据所述环境及时反馈值和历史时刻无人机知识模型的参数样本构建历史时刻组合动作损失函数。3.根据权利要求2所述的方法,其特征在于,根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数,包括:根据所述环境及时反馈值和历史时刻无人机知识模型组合在不同态势信息下对应的组合动作的评价值构建当前时刻组合动作损失函数为
其中,表示基于贝尔曼公式评价值的误差期望值,表示环境及时反馈值,表示损失因子,表示在t+1时刻无人机知识模型组合处于态势信息时的对应的组合动作的目标值,表示对态势信息的编...

【专利技术属性】
技术研发人员:张驭龙冯旸赫朱松岩刘忠黄金才黄魁华李敏张龙飞刘瑶阳方杰
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1