一种基于动作检测机制的CGF行为建模方法及系统技术方案

技术编号：37149269 阅读：42 留言：0更新日期：2023-04-06 22:03

本发明专利技术公开了一种基于动作检测机制的CGF行为建模方法及系统，在动作和奖励两方面引入交互引导式干预，用于训练CGF行为模型使之可以在特定的任务环境中完成指定的任务，具体为：一是在模型输出的动作基础上增加检测判断机制；二是CGF与环境交互结果的奖励值经过检测判断后再输入至DR算法中。相比于直接采取不基于模型的DRL算法直接开展CGF行为模型运算，可以在CGF行为模型中融入更准确的动作经验值，加速深度强化学习算法的收敛过程。本发明专利技术提供了一套较为完整的模型训练流程和方法，可以为CGF行为建模提供参考，可以广泛应用于军事建模与仿真领域。事建模与仿真领域。事建模与仿真领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动作检测机制的CGF行为建模方法及系统

[0001]本专利技术涉及计算机生成兵力行为建模
，特别是涉及一种基于强化学习和动作检测机制的计算机生成兵力行为建模方法和系统。

技术介绍

[0002]计算机生成兵力（Computer Generated Force，CGF）是作战仿真领域的重点研究内容之一，其思想是通过仿真的方式模拟战场环境中的坦克、士兵和作战飞机等军事单位，主要用于战术推演、模拟训练和辅助决策等，以达到降低成本、扩大规模的目的。传统的CGF建模方法有有限状态机、行为树、动态脚本等知识工程方法，主要针对具体的作战任务，收集作战条令、行动规程等领域专家知识直接描述行为输出，一是通常需要耗费大量的时间和重复性迭代工作；二是CGF行为能力通常仅限于确定的理论和规则，产生的行为缺乏适应性。
[0003]强化学习（Reinforcement Learning，RL）是机器学习的一个重要分支，是一种以环境反馈作为输入并能通过人为定义的奖励回报逐步适应环境的学习方法。强化学习智能体（Agent）通过不断地与环...

【技术保护点】

【技术特征摘要】
1.一种基于动作检测机制的CGF行为建模方法，其特征在于，所述方法包括如下步骤：S1基于LSTM
‑
SAC算法框架构建CGF行为预测模型；S2对所述CGF行为预测模型进行训练；S3将环境信息和状态信息输入至所述CGF行为预测模型进行预测，所述CGF行为预测模型依据环境和状态输出预测的动作；其中，步骤S2中所述CGF行为预测模型的训练过程包括：S21所述CGF行为预测模型与输入的环境信息交互后输出下一步动作；S22采用动作检测机制对所述CGF行为预测模型输出的动作进行判断，当输出的动作正确则被赋予负反馈，当输入的动作不正确则被赋予正反馈，所有反馈信息与动作信息一同被记录至经验回放池；S23基于所述经验回放池更新所述CGF行为预测模型的参数；S24循环步骤S21~S23直至达到设定的循环次数。2.根据权利要求1所述的一种基于动作检测机制的CGF行为建模方法，其特征在于：步骤S1）中，所述基于LSTM
‑
SAC算法框架的CGF行为预测模型的最佳策略π*满足：其中，s、a为状态和动作，E
(st,at)~π
表示CGF在策略π、动作a
t
和状态s
t
下获得奖励的期望，下标t表示时刻，r(s
t
,a
t
)为t时刻的奖励，H(π(
·
| s
t
))为t时刻的状态熵，α表示温度调整参数；优化目标函数为：其中，E
π
表示CGF在策略π下获得奖励的期望。3.根据权利要求2所述的一种基于动作检测机制的CGF行为建模方法，其特征在于：步骤S23中，更新所述CGF行为预测模型参数的方法为：初始化两个Soft
‑
Q函数网络参数θ和策略网络参数φ，初始化经验回放池；在每一次循环迭代中，根据接收的观察量o
t
策略网络选出动作a
t
，并将训练过程放入经验回放池R；从所述经验回放池R中选取N个片段，训练LSTM网络，更新两个Soft
‑
Q函数网络参数θ，更新策略网络参数φ，更新温度调整参数α，更新网络目标参数θ
i
直至循环停止。4.根据权利要求3所述的一种基于动作检测机制的CGF行为建模方法，其特征在于：更新soft
‑
Q网络参数θ的方法为将θ
‑
λ
Q
▽
θ
J
Q...

【专利技术属性】
技术研发人员：黄林，潘昕，龚立，刘亚杰，施连会，王康勃，朱一鑫，
申请(专利权)人：中国人民解放军海军工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人