一种基于元动作序列强化学习的无人集群演进系统及方法技术方案

技术编号：33462026 阅读：27 留言：0更新日期：2022-05-19 00:42

本发明专利技术公开了一种基于元动作序列强化学习的无人集群演进系统及方法，属于无人集群自主任务协同领域。本发明专利技术首先将无人集群面临的诸多任务分解为基础的元动作，通过估值网络构建环境信息与元动作序列间的映射关系，将任务效能评价指标作为强化学习的奖赏函数，通过众多场景自适应强化学习，实现无人集群任务能力的演进。该系统具有较强泛化能力，在应对复杂动态场景时具有较高鲁棒性。动态场景时具有较高鲁棒性。动态场景时具有较高鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于元动作序列强化学习的无人集群演进系统及方法

[0001]本专利技术属于无人集群自主任务协同领域，特别是指一种基于元动作序列强化学习的无人集群演进系统及方法。

技术介绍

[0002]当前，无人化作业需求在各领域均急剧上升，传统单一平台的无人自主系统模式由于抗风险能力低、任务类型单一的缺点逐步限制其在更多场景发挥应有作用，寻求新的技术突破口是保持无人化优势的必由之路。其中，利用已有的无人单元构建“无人集群”，由能力有限的不同单元合力完成复杂任务，实现低开支、低风险、高效率的任务目标，可代表未来无人系统领域的发展趋势。无人集群系统由一定数量的单功能或多功能无人系统共同组成，在交感网络的支撑下，节点之间进行信息交互及反馈、激励与相应等交感行为。无人集群系统整体具有能力涌现的特点，可实现单个平台行为的自主决策、平台间的行为协同，最终产生任务能力涌现。无人集群系统不是多个无人系统的简单编队，其任务能力也不是诸多平台单一能力的叠加，而是由多无人平台通过科学的方法聚集、调度、编排后，经过集群自组织机制与行为调控机制的有机耦合，产生了新的能力或原有能力发生了质的变化。
[0003]在多样化环境中，无人集群任务要素相互关联、制约和影响，使得无人集群协同决策变得十分困难，涉及主要问题主要体现在：1）模型难以建立：无人集群由许多各具特点、不同类型和不同用途的无人机构成，任务过程不仅取决于自身能力，还受自然环境和目标状态的制约，这导致无人集群协同建模难度急剧增加；2）问题求解困难：集群协同决策问题属于多参数、多约束的非确定多项...

【技术保护点】

【技术特征摘要】
1.一种基于元动作序列强化学习的无人集群演进系统，其特征在于，包括无人集群仿真环境、集群策略模型库、效能评估模块、态势感知模块、集群策略演进模块和集群决策模块；无人集群仿真环境用于提供多类无人系统，包括无人机、无人车、无人船模型，能够导入多类3D环境模型，并提供无人系统驱动及环境信息读取接口，支持无人集群协同飞行、无人集群任务规划、深度强化学习等智能算法的仿真及推演；集群策略模型库由集群元动作序列组成，元动作包含了每个无人系统可能存在的所有状态，以及可以执行的所有动作；所述集群策略模型库为基于分层状态机实现的无人系统状态与个体动作的映射集合；效能评估模块用于对策略模型库中的集群策略进行评估，判断策略的起始、结束时间以及结束时的集群作战效能值，根据初始的集群作战效能值和结束时集群作战效能值，对增减值进行量化评估计算，获得策略评估结果；态势感知模块用于感知当前的敌、我态势及地理环境信息，为后续集群策略学习演进模块及集群决策模块提供输入数据，感知数据包括敌我位置数据、运动方向数据、速度数据、典型环境要素位置，敌我位置数据由经度、纬度、高度组成；集群策略演进模块根据无人集群仿真环境的仿真数据以及策略评估结果，通过自学习算法形成新的集群策略，提供策略库的备选策略，形成对策略样本库的补充策略，实现无人集群任务策略演进；集群决策模块用于将实时感知的态势数据与决策库中的决策初始状态条件进行匹配度评估计算，如果匹配成功，则获得无人集群策略库中的各无人机执行序列，进行后续控制；如果匹配不成功，则转入在线自学习计算以获得策略，各无人系统执行在线学习的策略作为后续控制序列。2.一种基于元动作序列强化学习的无人集群演进方法，其特征在于，包括以下步骤：步骤1，通过无人集群仿真环境为整个系统提供无人机、无人车、...

【专利技术属性】
技术研发人员：柴兴华，耿虎军，张小龙，陈彦桥，牛韶源，李晨阳，高峰，关俊志，王雅涵，彭会湘，陈勇，宗茂，
申请(专利权)人：中国电子科技集团公司第五十四研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人