一种基于深度强化学习的武器目标智能分配方法组成比例

技术编号：32319906 阅读：34 留言：0更新日期：2022-02-16 18:25

针对传统武器目标分配算法建模困难、搜索效率低等问题，本发明专利技术提出一种基于深度强化学习的武器目标智能分配方法，通过训练得到具有较强决策能力的武器目标智能分配模型。本发明专利技术首先针对武器目标分配问题设计了武器目标分配问题的规划求解环境，然后使用SAC算法进行实现，同时在神经网络上使用了全连接网络、卷积网络和GRU网络等神经网络，提升了模型的效果。本发明专利技术无论在学习能力、适应性和计算效率都要比传统算法更加优秀。都要比传统算法更加优秀。都要比传统算法更加优秀。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的武器目标智能分配方法

[0001]本专利技术涉及作战任务决策领域，尤其是涉及一种武器目标分配智能分配方法。

技术介绍

[0002]武器目标分配亦称“武器
‑
目标分配”，是指在作战指挥中为目标明确打击武器的一项决策活动，根据给定的目标和毁伤要求清单,依托平时预先为每个目标所规划的对应不同毁伤要求的多套打击方案,基于打击方案所明确的使用武器类型、数量及可达到的毁伤效果,在满足可用武器资源的条件下,通过为每个目标选择打击方案的方式确定武器目标分配关系，使总体投入武器资源最省或可达到毁伤效果的期望值极大。
[0003]武器目标分配作为任务规划系统的关键组成要素，其核心和基础是解决好武器与目标间的适应性匹配问题，以提高武器打击目标的可行性与毁伤效能。当前伴随着新军事理论的提出，现代作战不仅重视作战的输赢，同时还要保证以最少的物资消耗、人员伤亡在最短时间内获得胜利。作战时，要求能够快速制定作战方案，完成作战任务并达成作战效益的最大化。然而，针对有限的武器资源，如何将资源有效合理的分配给每个...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的武器目标智能分配方法，其特征在于，包括：设计武器目标分配问题的SAC深度强化学习求解环境；建立武器目标分配SAC深度强化学习网络模型；训练武器目标分配SAC深度强化学习网络模型；应用武器目标分配SAC深度强化学习网络模型的训练结果，实现武器目标分配问题求解，并针对应用场景变化开展武器目标分配SAC深度强化学习网络模型优化，完成SAC深度强化学习算法的自学习和在线升级。2.如权利要求1所述的方法，其特征在于，所述设计武器目标分配问题的SAC深度强化学习求解环境，包括状态模型设计、动作模型设计和奖励模型设计；其中，状态模型设计，具体包括：选取目标序号、目标价值系数、毁伤等级、打击方案列表、其他目标信息列表和打击方案标签作为状态信息；动作模型设计，具体包括：根据每个目标最多可用的打击方案数量，设计武器目标分配SAC深度强化学习求解环境的动作，为对应的目标选择打击方案以完成武器目标动作分配；奖励模型设计，具体包括：建立基于预期打击效益、使用武器数量、使用武器种类数量和剩余武器能力四个指标综合评价的武器目标分配决策效果评价函数，作为该问题的奖励函数。3.如权利要求1所述的方法，其特征在于，所述建立武器目标分配SAC深度强化学习网络模型，包括：建立基于(CONV/FC/GRU)混合架构的武器目标分配决策动作网络，建立武器目标分配决策价值网...

【专利技术属性】
技术研发人员：王才红，江光德，高军强，董茜，吕乃冰，曹扬，李冬雪，赵思聪，彭渊，
申请(专利权)人：中国人民解放军九六九零一部队二六分队，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人