一种基于强化学习和效能评估的多资源任务规划方法及系统技术方案

技术编号:38427330 阅读:10 留言:0更新日期:2023-08-07 11:24
本发明专利技术公开了一种基于强化学习和效能评估的多资源任务规划方法及系统,基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略;通过网络接入不同手段任务资源数据,将数据通过中间件进行汇总分析,形成多手段任务资源库;本发明专利技术根据现有任务资源占用情况,依据目标行为威胁分析解算,形成异构任务资源协同行为策略,支持多种任务资源共同协作完成同一目标任务。完成同一目标任务。

【技术实现步骤摘要】
一种基于强化学习和效能评估的多资源任务规划方法及系统


[0001]本专利技术涉及任务规划
,具体涉及一种基于强化学习和效能评估的多资源任务规划方法及系统。

技术介绍

[0002]在实际使用中根据信号类型大致有可见光、光谱、微波、红外、电磁感应等不同种类的任务资源,它们在不同的平台上(天基海基陆基),具备不同的功能和使用范围,执行有针对性的任务。由于手段不同,资源设备使用方法和设备管理系统存在一定的差异性,想要将它们数据连在一起,综合使用多种手段资源的进行协同任务的时候,就需要按照一些规则或者算法进行适当、合理的规划调度,从而使整个多手段系统获取目标信息的能力更高效和准确。
[0003]随着现在人工智能、大数据分析预测、知识图谱(专家系统)决策、数据链、信息栅格、分布式技术、多代理技术等计算机科学技术的发展和进步,许多组织开始研究神经网络、专家系统、多代理技术等技术,并基于这些技术着手建立多任务资源资源管理和任务规划系统。有基于退火算法管理资源期望约束条件的最大检测概率管理法,使用动态规划法极大的提高对目标的监控几率,但是对多目标检测效率较差;基于多智能体理论的动态联盟方法,将多目标按照优先级进行管理,任务资源按照联盟、竞争的管理办法进行组织,能够对资源更好的更加科学的分配,这些方法有一定的科学理论基础,但对于目标建模、威胁建模有极大的要求,并且对很多实时因素不能即时响应,用于训练的目标数据也大多数都是仿真建模出的,实用性相对欠缺。

技术实现思路

[0004]本专利技术所要解决的技术问题是:现有的任务资源资源管理和任务规划系统适用范围单一,对很多实时因素不能即时响应,实用性相对欠缺;本专利技术目的在于提供一种基于强化学习和效能评估的多资源任务规划方法及系统,在人工智能、大数据分析基础上,根据现有任务资源设备对目标任务进行数字化建模仿真,已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略;在协同规划策略执行过程中基于可用性、可信性、性能指标、效能指标、贡献度、活跃度等指标进行反馈评估,不停调整任务资源指令和调度不同资源,在保证完成任务的基础上,完善协同作战策略和效能评估指标库;从而使多手段任务资源系统能够在任务时尽可能达到目标最适配的方案,更加科学合理高效的使用任务资源。
[0005]本专利技术通过下述技术方案实现:
[0006]本方案提供一种基于强化学习和效能评估的多资源任务规划方法,包括步骤:
[0007]步骤一:获取目标任务并进行数字化建模仿真;
[0008]步骤二:基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略;
[0009]步骤三:按照协同规划策略执行目标任务:在执行目标任务的过程中,基于目标实时行为、任务结果反馈和实时资源效能评估结果进行实时资源调度;同时强化学习目标实时行为以优化目标行为威胁库,强化学习任务结果反馈以优化协同规划策略,强化学习实时资源效能评估以优化资源效能评估指标库。
[0010]本方案工作原理:
[0011]单独手段的任务资源很难完成复合型目标的探测任务,往往需要多种手段的任务资源相互协作才能针对复合型目标进行监控,这对信息共享程度的需求很大;本方案基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略;通过网络接入不同手段任务资源数据,将数据通过中间件进行汇总分析,形成多手段任务资源库。根据现有任务资源占用情况,依据目标行为威胁分析解算,形成异构任务资源协同行为策略,支持多种任务资源共同协作完成同一目标任务。
[0012]进一步优化方案为,所述目标行为威胁库,用于描述目标进入区域后进行的任务、行为、及其威胁程度;
[0013]所述任务资源库,用于描述任务资源具备的功能指标、硬件设备能力指标、物理参数以及与目标匹配的手段指标;
[0014]所述协同策略库,用于描述在不同的目标距离、不同的目标载荷、不同的目标行为、不同的威胁等级时,任务资源的使用设置指令、功率设置指令和周期设置指令;
[0015]所述资源效能评估指标库,用于描述任务资源对目标或载荷的性能指标和效能指标,以及描述任务资源在协同过程中贡献度指标、活跃度指标、可用度指标和可信度指标。
[0016]进一步优化方案为,步骤二包括以下子步骤:
[0017]S21,基于任务资源库进行关联分析:通过对任务资源库中多源任务资源的可用度、可信度、贡献度和活跃度的反馈进行融合分析生成最优匹配策略,并建立目标资源行动最优策略图谱;
[0018]S22,以目标资源行动最优策略图谱为蓝本,对协同策略进行解算,计算出目标任务所需要的资源以及该资源在任务中需要执行的指令。
[0019]并根据指令反馈结果优化协同规划策略,重复目标行为建模过程,拓宽目标模型库,以满足后续任务规划时能够更加准确、高效的进行资源解算、协同策略的选择。
[0020]进一步优化方案为,实时资源效能评估的方法包括:
[0021]T1,建立资源效能评估指标因素集合;
[0022]T2,将资源效能评估指标因素分为性能指标、效能指标和硬件参数;将性能指标中的信息采集、信息识别和信息融合作为反馈因素;将效能指标中的可用性、可信性、活跃度、参与度作为计算因素;
[0023]T3,根据资源效能评估指标因素集合建立目标适配度、载荷适配度和协同贡献度评价集合;
[0024]T4,根据模糊综合评判算法计算评价矩阵,并结合效能评估权重因子,得出综合评价得分。
[0025]进一步优化方案为,每个任务资源配置有一个任务执行代理,任务执行代理按照任务时间和目标探测信息,将协同规划策略转换为任务资源的控制指令,下发到各任务资源进行执行;同时任务执行代理还采集任务资源的探测信息和任务资源的状态信息。由于
规划过程涉及多种多个任务资源的协同工作,系统任务资源需根据时间或目标信息,实时做出调整,如一个节点同时协调各手段任务资源的工作,系统计算量将极为繁重,同时降低系统的稳定性。因此通过分布式代理的架构,为每个任务资源创建一个任务执行代理。
[0026]本方案还提供一种基于强化学习和效能评估的多资源任务规划系统,用于实现上述方案的基于强化学习和效能评估的多资源任务规划方法,包括:
[0027]采集模块,用于获取目标任务并进行数字化建模仿真;
[0028]解算模块,用于基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略;
[0029]执行模块,用于按照协同规划策略执行目标任务:在执行目标任务的过程中,基于目标实时行为、任务结果反馈和实时资源效能评估结果进行实时资源调度;同时强化学习目标实时行为以优化目标行为威胁库,强化学习任务结果反馈以优化协同规划策略,强化学习实时资源效能评估以优化资源效能评估指标库。
[0030]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,包括步骤:步骤一:获取目标任务并进行数字化建模仿真;步骤二:基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略;步骤三:按照协同规划策略执行目标任务:在执行目标任务的过程中,基于目标实时行为、任务结果反馈和实时资源效能评估结果进行实时资源调度;同时强化学习目标实时行为以优化目标行为威胁库,强化学习任务结果反馈以优化协同规划策略,强化学习实时资源效能评估以优化资源效能评估指标库。2.根据权利要求1所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,所述目标行为威胁库,用于描述目标进入区域后进行的任务、行为、及其威胁程度;所述任务资源库,用于描述任务资源具备的功能指标、硬件设备能力指标、物理参数以及与目标匹配的手段指标;所述协同策略库,用于描述在不同的目标距离、不同的目标载荷、不同的目标行为、不同的威胁等级时,任务资源的使用设置指令、功率设置指令和周期设置指令;所述资源效能评估指标库,用于描述任务资源对目标或载荷的性能指标和效能指标,以及描述任务资源在协同过程中贡献度指标、活跃度指标、可用度指标和可信度指标。3.根据权利要求2所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,步骤二包括以下子步骤:S21,基于任务资源库进行关联分析:通过对任务资源库中多源任务资源的可用度、可信度、贡献度和活跃度的反馈进行融合分析生成最优匹配策略,并建立目标资源行动最优策略图谱;S22,以目标资源行动最优策略图谱为蓝本,对协同策略进行解算,计算出目标任务所需要的资源以及该资源在任务中需要执行的指令。4.根据权利要求1所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,实时资源效能评估的方法包括:T1,建立资源效能评估指标因素集合;T2,将资源效能评估指标因素分为性能指标、效能指标和硬件参数;将性能指标中的信息采集、信息识别和信息融合作为反馈因素;将效能指标中的可用性、可信性、活跃度、参与度作为计算因素;T3,根据资源效能评估指标因素集合建立目标适配度、载荷适配度和协同贡献度评价集合;T4,根据模糊综合评判算法计算评价矩阵,并结合效能评估权重因子,得出综合评价得分。5.根据权利要求2所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,每个任务资源配置有一个任务执行代理,任务执行代理按照任务时间和目标探测信息,将协同规划策略转换为任务资源的控制指令,下发到各任务资源进行执行;同时任务执行代理还采集任务资源的探测信息和任务资源的状态信息。6.一种基于强化学习和效能评估的多资源任务规划系统,其特征在于,用于实现权利
要求1
...

【专利技术属性】
技术研发人员:于谦陈恩博陈乾友唐洪奎
申请(专利权)人:四川九洲电器集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1