一种基于元动作序列强化学习的无人集群演进系统及方法技术方案

技术编号:33462026 阅读:27 留言:0更新日期:2022-05-19 00:42
本发明专利技术公开了一种基于元动作序列强化学习的无人集群演进系统及方法,属于无人集群自主任务协同领域。本发明专利技术首先将无人集群面临的诸多任务分解为基础的元动作,通过估值网络构建环境信息与元动作序列间的映射关系,将任务效能评价指标作为强化学习的奖赏函数,通过众多场景自适应强化学习,实现无人集群任务能力的演进。该系统具有较强泛化能力,在应对复杂动态场景时具有较高鲁棒性。动态场景时具有较高鲁棒性。动态场景时具有较高鲁棒性。

【技术实现步骤摘要】
一种基于元动作序列强化学习的无人集群演进系统及方法


[0001]本专利技术属于无人集群自主任务协同领域,特别是指一种基于元动作序列强化学习的无人集群演进系统及方法。

技术介绍

[0002]当前,无人化作业需求在各领域均急剧上升,传统单一平台的无人自主系统模式由于抗风险能力低、任务类型单一的缺点逐步限制其在更多场景发挥应有作用,寻求新的技术突破口是保持无人化优势的必由之路。其中,利用已有的无人单元构建“无人集群”,由能力有限的不同单元合力完成复杂任务,实现低开支、低风险、高效率的任务目标,可代表未来无人系统领域的发展趋势。无人集群系统由一定数量的单功能或多功能无人系统共同组成,在交感网络的支撑下,节点之间进行信息交互及反馈、激励与相应等交感行为。无人集群系统整体具有能力涌现的特点,可实现单个平台行为的自主决策、平台间的行为协同,最终产生任务能力涌现。无人集群系统不是多个无人系统的简单编队,其任务能力也不是诸多平台单一能力的叠加,而是由多无人平台通过科学的方法聚集、调度、编排后,经过集群自组织机制与行为调控机制的有机耦合,产生了新的能力或原有能力发生了质的变化。
[0003]在多样化环境中,无人集群任务要素相互关联、制约和影响,使得无人集群协同决策变得十分困难,涉及主要问题主要体现在:1)模型难以建立:无人集群由许多各具特点、不同类型和不同用途的无人机构成,任务过程不仅取决于自身能力,还受自然环境和目标状态的制约,这导致无人集群协同建模难度急剧增加;2)问题求解困难:集群协同决策问题属于多参数、多约束的非确定多项式求解问题,在多输入条件下容易导致组合爆炸,需要研究高效的降维方法及优化策略;3)任务耦合度高:集群中的任务通常相互关联、彼此制约,即存在复杂的约束关系及不同的任务需求,如时间、空间、载荷匹配关系和任务优先级等要求,多任务耦合极大增加了自协同的难度;4)进化能力弱:无人机集群多是在高动态、强对抗环境下执行任务,对象的时间、空间、状态均是事先未知的,需要无人集群系统不断学习新环境下的决策能力,没有进化能力不足以支撑多变环境下的决策正确性。
[0004]伴随人工智能技术及无人系统技术在世界范围内的传播与扩散,强化学习已在许多领域展现了巨大的应用潜力,多智能体以“试错”方式进行学习,通过与环境进行交互获得的奖赏指导动作,促使智能体获得最大的奖励。相较传统决策方法,强化学习系统需主要依靠自身的经历进行学习,由环境提供的强化信号对产生动作的好坏作出评价,通过有限次地执行能够获得最大奖励的动作,来确定最佳模型,可以促进无人集群向可进化智能体系转变,提升无人集群系统的场景适应性。

技术实现思路

[0005]为了克服当前无人集群决策模型构建困难、环境适应性差、不具备进化能力等问题,本专利技术提供了一种基于元动作序列强化学习的无人集群演进系统及方法,本专利技术具有较强泛化能力,在应对复杂动态场景时具有较高鲁棒性。
[0006]为了实现上述目的,本专利技术采用的技术方案为:一种基于元动作序列强化学习的无人集群演进系统,包括无人集群仿真环境、集群策略模型库、效能评估模块、态势感知模块、集群策略演进模块和集群决策模块;无人集群仿真环境用于提供多类无人系统,包括无人机、无人车、无人船模型,能够导入多类3D环境模型,并提供无人系统驱动及环境信息读取接口,支持无人集群协同飞行、无人集群任务规划、深度强化学习等智能算法的仿真及推演;集群策略模型库由集群元动作序列组成,元动作包含了每个无人系统可能存在的所有状态,以及可以执行的所有动作;所述集群策略模型库为基于分层状态机实现的无人系统状态与个体动作的映射集合;效能评估模块用于对策略模型库中的集群策略进行评估,判断策略的起始、结束时间以及结束时的集群作战效能值,根据初始的集群作战效能值和结束时集群作战效能值,对增减值进行量化评估计算,获得策略评估结果;态势感知模块用于感知当前的敌、我态势及地理环境信息,为后续集群策略学习演进模块及集群决策模块提供输入数据,感知数据包括敌我位置数据、运动方向数据、速度数据、典型环境要素位置,敌我位置数据由经度、纬度、高度组成;集群策略演进模块根据无人集群仿真环境的仿真数据以及策略评估结果,通过自学习算法形成新的集群策略,提供策略库的备选策略,形成对策略样本库的补充策略,实现无人集群任务策略演进;集群决策模块用于将实时感知的态势数据与决策库中的决策初始状态条件进行匹配度评估计算,如果匹配成功,则获得无人集群策略库中的各无人机执行序列,进行后续控制;如果匹配不成功,则转入在线自学习计算以获得策略,各无人系统执行在线学习的策略作为后续控制序列。
[0007]一种基于元动作序列强化学习的无人集群演进方法,包括以下步骤:步骤1,通过无人集群仿真环境为整个系统提供无人机、无人车、无人船模型,并提供无人系统驱动及环境信息读取接口,整个系统的输入数据及输出数据均在该环境下产生;步骤2,通过态势感知模块在无人集群仿真环境下进行态势感知,获取当前的敌、我态势及地理环境信息,包括敌我位置数据、运动方向数据、速度数据、建筑物位置、地形起伏数据;步骤3,通过集群决策模块接收来自态势感知模块的态势数据,并与集群策略模型库中的集群状态进行匹配度计算,如果匹配成功,则按集群策略模型库中的无人集群个体的元动作序列输入无人集群仿真环境的无人系统驱动接口;如果匹配不成功,则触发集群策略演进模块进入在线学习过程;步骤4,通过群策略演进模块进行自学习演进,对无人集群当前状态信息通过无人集群仿真环境进行备选策略推演,通过多智能体自学习算法生成新的集群策略,并将该策
略输出到效能评估模块;自学习过程采用多智能体深度强化学习算法,将任务效能评估结果作为强化学习的奖赏激励,通过无人集群仿真环境提供的多类场景对深度神经网络进行集中式训练、分散式执行实现;步骤5,通过效能评估模块采用效能评估算法计算备选策略的效能值,如果效能值达到设定阈值,则输出新的集群策略加入集群策略模型库,并更新集群策略模型库;如果效能值小于设定阈值,则继续通过无人集群仿真环境进行备选策略推演,重复自学习过程,直至产生效能值达标的集群策略,则当前集群状态信息与当前集群策略的映射关系被拟合到深度神经网络;效能评估算法根据专家知识,构建指标体系及效能影响权重,通过指标体系参数及权重的综合加权定量计算效能值;步骤6,通过集群决策模块对匹配成功的无人集群状态,执行决策并进行集群状态更新,无人集群仿真环境中的无人系统模型按接收的集群策略完成模型控制,驱动整个无人集群进入下一状态,迭代进行态势感知,直至任务结束。
[0008]本专利技术的有益效果在于:1、本专利技术将无人集群面临的诸多任务分解为基础的元动作,通过估值网络构建环境信息与元动作序列间的映射关系,将任务效能评价指标作为强化学习的奖赏函数,通过众多场景自适应强化学习,实现无人集群任务能力的演进。该系统具有较强泛化能力,在应对复杂动态场景时具有较高鲁棒性。
[0009]2、本专利技术通过神经网络构建集群状态信息与元动作序列间的映射关系,将任务效能评价结果作为强化学习的奖赏激励,通过多想定的自适本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元动作序列强化学习的无人集群演进系统,其特征在于,包括无人集群仿真环境、集群策略模型库、效能评估模块、态势感知模块、集群策略演进模块和集群决策模块;无人集群仿真环境用于提供多类无人系统,包括无人机、无人车、无人船模型,能够导入多类3D环境模型,并提供无人系统驱动及环境信息读取接口,支持无人集群协同飞行、无人集群任务规划、深度强化学习等智能算法的仿真及推演;集群策略模型库由集群元动作序列组成,元动作包含了每个无人系统可能存在的所有状态,以及可以执行的所有动作;所述集群策略模型库为基于分层状态机实现的无人系统状态与个体动作的映射集合;效能评估模块用于对策略模型库中的集群策略进行评估,判断策略的起始、结束时间以及结束时的集群作战效能值,根据初始的集群作战效能值和结束时集群作战效能值,对增减值进行量化评估计算,获得策略评估结果;态势感知模块用于感知当前的敌、我态势及地理环境信息,为后续集群策略学习演进模块及集群决策模块提供输入数据,感知数据包括敌我位置数据、运动方向数据、速度数据、典型环境要素位置,敌我位置数据由经度、纬度、高度组成;集群策略演进模块根据无人集群仿真环境的仿真数据以及策略评估结果,通过自学习算法形成新的集群策略,提供策略库的备选策略,形成对策略样本库的补充策略,实现无人集群任务策略演进;集群决策模块用于将实时感知的态势数据与决策库中的决策初始状态条件进行匹配度评估计算,如果匹配成功,则获得无人集群策略库中的各无人机执行序列,进行后续控制;如果匹配不成功,则转入在线自学习计算以获得策略,各无人系统执行在线学习的策略作为后续控制序列。2.一种基于元动作序列强化学习的无人集群演进方法,其特征在于,包括以下步骤:步骤1,通过无人集群仿真环境为整个系统提供无人机、无人车、...

【专利技术属性】
技术研发人员:柴兴华耿虎军张小龙陈彦桥牛韶源李晨阳高峰关俊志王雅涵彭会湘陈勇宗茂
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1