基于主动强化学习的潜艇行动参数预测方法及装置制造方法及图纸

技术编号：40416327 阅读：18 留言：0更新日期：2024-02-20 22:33

本发明专利技术提供了一种基于主动强化学习的潜艇行动参数预测方法及装置，属于机器学习领域，使用了一种主动强化学习智能体进行潜艇防御行动参数决策，通过将低资源编码与主动强化学习相结合的框架，解决了输入稀疏、标签稀疏两方面的问题，同时利用强化学习模型实现了和环境的交互和反馈。使得本发明专利技术方法无论是在完全信息环境，还是具备不同高噪声、低资源数据特征的环境，均可以在决策精度、收敛性、稳定性上表现更优。实验表明在固定30步观测条件下，本发明专利技术在仅存在10、5、3个有效步的条件下，分别能够达到91%,87%和78%的决策精度，说明了本发明专利技术在未来潜艇防御机动参数学习上具有极大的发展和应用潜力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习领域，尤其是涉及一种基于主动强化学习的潜艇行动参数预测方法及装置。

技术介绍

1、潜艇经常需要在缺少通信和低资源观测信息条件下遂行作战行动，其中防御鱼雷是最为紧急、威胁程度最高的一类战术行动。特别是随着水下无人uuv在陌生危险海域执行作战行动的应用前景下，如何构建具备自主感知、演化和学习能力的智能决策模型变得越来越重要。目前国内外已经有很多依托战术推演平台模拟水下战术对抗行动的研究，采用仿真优化方法，通过蒙特卡洛模拟与过程仿真模型相结合的方式，对水下对抗行动进行推演，最大化安全距离时的潜艇行动策略可以有效降低指挥员战术决策的认知负荷。然而，大多数情况下我们无法确定来袭鱼雷的精确性能指标和行动参数，因此，如何基于观测数据做出合理行动参数决策变得非常重要。

2、(1) 在潜艇防御鱼雷的应用背景下，从外部环境获取的各类观测信息可以看做是少量标注甚至是无标注样本，且受自身隐蔽性要求和海洋环境的复杂性等因素的影响，观测数据往往存在着低信噪比、存在噪声和冗余等特点，是一种典型的低资源信息。如果直接将多变量观测信息作为智能决策模型的输入，一方面对于智能决策模型而言计算和训练的开销巨大；另一方面，从时序变化角度看水下的极为有限的观测信息中所蕴含的隐层特征往往很难有效的被挖掘和利用，进而导致模型决策时缺乏有效的输入信息。

3、(2) 此外，在水下对抗的场景中获得大量标记样本的代价极为昂贵，甚至难以实现，特别是当面临鱼雷时，现有方法很难在缺乏有效通信和完整目标观测信息时进行决策，极度依赖于指挥员的临机决

4、(3) 真实情况下观测到的局部目标信息，往往会导致目标行动的不确定性，传统仿真优化模型所基于的明确规则和明确参数的最优解显然并不存在，有限的观测和计算只能达到一个局部最优解。

5、在低速潜艇防御高速鱼雷的紧急对抗情况下，单纯依靠仿真模型和指挥员经验判断的行动参数时，一方面依赖于指挥员经验估计初始态势要素，缺乏有效从多变量时序中挖掘知识的手段；另一方面，国内外计算机辅助决策动态性和实时性都难以满足紧急对抗场景，不能依据观测信息连续优化机动参数。目前大多数深度学习算法在特征挖掘时缺少对低资源信息的有效处理方法，而用于研究此类方法的行动参数标签稀缺。

技术实现思路

1、本专利技术所要解决的技术问题是怎样在观测信息样本数量少、质量差异大、缺少有效的训练标注的情况下，对决策模型进行训练，提出了一种基于主动强化学习的潜艇行动参数预测方法及装置。

2、为解决上述技术问题，本专利技术所采用的技术方案是：

3、一种基于主动强化学习的潜艇行动参数预测方法，包括以下步骤：

4、步骤1：获取多个实体单元的时序观测信息作为训练样本，所述实体单元为参与对抗的单元；

5、步骤2：使用自监督时序编码模型从所述时序观测信息中提取全局共享特征；

6、步骤3：将所提取的全局共享特征输入主动学习与强化学习结合的主动强化学习模型中，进行训练得到智能决策模型；

7、步骤4：获取时序观测信息，输入训练好的智能决策模型，得到潜艇行动参数的预测标签。

8、进一步地，步骤2中使用自监督时序编码模型从所述时序观测信息中提取全局共享特征的方法是：

9、步骤2.1：将多个实体单元在个时间步内的多变量时序观测信息依次输入到一个基于lstm层构成的自编码层，得到每个实体单元时序观测信息的表征序列，每个实体单元所采集的多变量时序观测信息包括该实体单元的静态属性特征和动态属性特征；

10、步骤2.2：将个时间步内来自多个实体单元的表征序列输入一个由门控循环单元gru构成的自回归层，归纳来自个时间步所有输入所蕴含的共享特征；

11、步骤2.3：将个时间步所有输入所蕴含的共享特征输入一个由全连接层构成的预测层，得到多个实体单元在个时间步内的全局共享特征。

12、进一步地，步骤2中使用自监督时序编码模型的损失函数为最大化互信息熵的损失函数；

13、所述互信息熵为预测层输出个时间步的全局共享特征与lstm的自编码层输出的表征序列的向量内积。

14、进一步地，所述主动强化学习模型中的主动学习任务，在工作阶段根据输入的状态序列，利用经验指导标记判断下一个时刻是否需要引入标签；

15、时刻的标签向量计算方法为：

16、

17、如果值为0，则代表下一个时刻不引入专家的经验标签；反之，如果的值为1，则需要引入专家的经验标签，为引入的标签值；

18、在主动学习任务的模型更新阶段，从敏感数据样本集中选择预先设定比例的目标敏感样本作为新的未标注样本加入到训练集下一轮采样中，所述目标敏感样本为在主动强化学习模型每批次训练过程中分类不确定程度最高的样本。

19、进一步地，所述目标敏感样本的确定方法是：

20、使用三种衡量指标来确定敏感样本，三种指标分别为：每个时间步分类误差、训练迭代过程中分类变化的不确定程度和一个时序样本内标签结果变化的程度；

21、所述时间步分类误差用于计算得到分类标签时的确定程度，计算方法是：

22、

23、其中，代表模型在主动强化学习模型参数为条件下预测的标签，如果的值越大，代表得到分类标签的不确定性越高，表示主动强化学习模型参数为条件下选择标签的概率，表示时刻的表征序列；

24、分类变化的不确定程度用于计算模型训练迭代过程中结果变化的程度；

25、

26、 t表示观测序列的时间长度，、分别表示时刻、第时刻时间步分类误差的变化值，表示时刻时间步分类误差，表示时刻时间步分类误差；

27、时序样本内标签结果变化的程度计算在时间长度为 t的时序观测信息样本中，预测结果的稳定性，用信息熵的方式来计算，

28、

29、表示样本；表示第时刻预测的标签；

30、计算每个时间片段不确定程度的度量公式：

31、

32、表示样本 x的不确定程度， α表示不确定程度系数，表示第时刻的分类变化的不确定程度，表示第时刻的时间步分类误差，表示第时刻的时序样本内标签结果变化的程度，表示按元素乘；

33、在一个训练批次结束时，根据分类决策不确定程度的计算结果，将不确定程度最高的样本作为敏感信息样本放入敏感数据池中，构成敏感数据样本集。

34、进一步地，将潜艇转向行动参数转化为基于区间的离散决策标签，并取各区间的中间数值作为各区间的动作相对应的的行动参本文档来自技高网...

【技术保护点】

1.一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，步骤2中使用自监督时序编码模型从所述时序观测信息中提取全局共享特征的方法是：

3.根据权利要求2所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，步骤2中使用自监督时序编码模型的损失函数为最大化互信息熵的损失函数；

4.根据权利要求1所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，所述主动强化学习模型中的主动学习任务，在工作阶段根据输入的状态序列，利用经验指导标记判断下一个时刻是否需要引入标签；

5.根据权利要求4所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，所述目标敏感样本的确定方法是：

6.根据权利要求4所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，将潜艇转向行动参数转化为基于区间的离散决策标签，并取各区间的中间数值作为各区间的动作相对应的行动参数。

7.根据权利要求4所述的一种基于主动强化学习

8.根据权利要求7所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，动作A分别是将潜艇行动参数离散化形成U个动作分类标签，动作的取值范围是分类标签数量U的两倍，前U个动作为进行决策时选择的动作，后U个动作为预测下一个时间步是否引入专家经验标签时选择的动作；

9.根据权利要求7所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，所述奖赏包括“需要引入经验、决策正确”、“需要引入经验、决策错误”、“不需要引入经验、决策正确”和“不需要引入经验、决策错误”。

10.一种基于主动强化学习的潜艇行动参数预测系统，其特征在于，使用权利要求1至9任一项所述的基于主动强化学习的潜艇行动参数预测方法的各步骤。

...

【技术特征摘要】

1.一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，包括以下步骤：

5.根据权利要求4所述的一种基于主动强化学习的潜艇行动参数预测方法，其特征在于，所述目标敏感样本的确定方法是：

7.根据权利要求4所述的一种基于主动强化学习的...

【专利技术属性】
技术研发人员：杨静，陈丽，陆铭华，吴金平，张会，周佳玉，崔轶群，
申请(专利权)人：中国人民解放军海军潜艇学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人