【技术实现步骤摘要】
一种基于强化学习和效能评估的多资源任务规划方法及系统
[0001]本专利技术涉及任务规划
,具体涉及一种基于强化学习和效能评估的多资源任务规划方法及系统。
技术介绍
[0002]在实际使用中根据信号类型大致有可见光、光谱、微波、红外、电磁感应等不同种类的任务资源,它们在不同的平台上(天基海基陆基),具备不同的功能和使用范围,执行有针对性的任务。由于手段不同,资源设备使用方法和设备管理系统存在一定的差异性,想要将它们数据连在一起,综合使用多种手段资源的进行协同任务的时候,就需要按照一些规则或者算法进行适当、合理的规划调度,从而使整个多手段系统获取目标信息的能力更高效和准确。
[0003]随着现在人工智能、大数据分析预测、知识图谱(专家系统)决策、数据链、信息栅格、分布式技术、多代理技术等计算机科学技术的发展和进步,许多组织开始研究神经网络、专家系统、多代理技术等技术,并基于这些技术着手建立多任务资源资源管理和任务规划系统。有基于退火算法管理资源期望约束条件的最大检测概率管理法,使用动态规划法极大的提高对目标的监控几率,但是对多目标检测效率较差;基于多智能体理论的动态联盟方法,将多目标按照优先级进行管理,任务资源按照联盟、竞争的管理办法进行组织,能够对资源更好的更加科学的分配,这些方法有一定的科学理论基础,但对于目标建模、威胁建模有极大的要求,并且对很多实时因素不能即时响应,用于训练的目标数据也大多数都是仿真建模出的,实用性相对欠缺。
技术实现思路
[0004]本专利技术所要解决的技术问题是 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,包括步骤:步骤一:获取目标任务并进行数字化建模仿真;步骤二:基于已构建好的目标行为威胁库、任务资源库和协同策略库对目标任务进行资源解算和协同策略解算得到协同规划策略;步骤三:按照协同规划策略执行目标任务:在执行目标任务的过程中,基于目标实时行为、任务结果反馈和实时资源效能评估结果进行实时资源调度;同时强化学习目标实时行为以优化目标行为威胁库,强化学习任务结果反馈以优化协同规划策略,强化学习实时资源效能评估以优化资源效能评估指标库。2.根据权利要求1所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,所述目标行为威胁库,用于描述目标进入区域后进行的任务、行为、及其威胁程度;所述任务资源库,用于描述任务资源具备的功能指标、硬件设备能力指标、物理参数以及与目标匹配的手段指标;所述协同策略库,用于描述在不同的目标距离、不同的目标载荷、不同的目标行为、不同的威胁等级时,任务资源的使用设置指令、功率设置指令和周期设置指令;所述资源效能评估指标库,用于描述任务资源对目标或载荷的性能指标和效能指标,以及描述任务资源在协同过程中贡献度指标、活跃度指标、可用度指标和可信度指标。3.根据权利要求2所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,步骤二包括以下子步骤:S21,基于任务资源库进行关联分析:通过对任务资源库中多源任务资源的可用度、可信度、贡献度和活跃度的反馈进行融合分析生成最优匹配策略,并建立目标资源行动最优策略图谱;S22,以目标资源行动最优策略图谱为蓝本,对协同策略进行解算,计算出目标任务所需要的资源以及该资源在任务中需要执行的指令。4.根据权利要求1所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,实时资源效能评估的方法包括:T1,建立资源效能评估指标因素集合;T2,将资源效能评估指标因素分为性能指标、效能指标和硬件参数;将性能指标中的信息采集、信息识别和信息融合作为反馈因素;将效能指标中的可用性、可信性、活跃度、参与度作为计算因素;T3,根据资源效能评估指标因素集合建立目标适配度、载荷适配度和协同贡献度评价集合;T4,根据模糊综合评判算法计算评价矩阵,并结合效能评估权重因子,得出综合评价得分。5.根据权利要求2所述的一种基于强化学习和效能评估的多资源任务规划方法,其特征在于,每个任务资源配置有一个任务执行代理,任务执行代理按照任务时间和目标探测信息,将协同规划策略转换为任务资源的控制指令,下发到各任务资源进行执行;同时任务执行代理还采集任务资源的探测信息和任务资源的状态信息。6.一种基于强化学习和效能评估的多资源任务规划系统,其特征在于,用于实现权利
要求1
...
【专利技术属性】
技术研发人员:于谦,陈恩博,陈乾友,唐洪奎,
申请(专利权)人:四川九洲电器集团有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。