一种基于JADE和强化学习的多Agent应急行动方法技术

技术编号：21455489 阅读：30 留言：0更新日期：2019-06-26 05:16

本发明专利技术提供了一种基于JADE和强化学习的多Agent应急行动决策方法，步骤包括：启动JADE平台并建立监控Agent，利用监控Agent实时判断是否有突发公共事件发生；在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为，并执行各个应急资源仓库Agent的强化学习，从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值；从各个强化学习回馈值中选择一个或多个应急资源仓库Agent加入应急资源调配序列中。该多Agent应急行动决策方法将多Agent技术与强化学习算法相结合，从整个应急行动系统的全局出发来调配应急资源仓库的供应，强化学习算法充分利用了Agent的自主性，来促进多Agent系统的智能化水平和自适应能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于JADE和强化学习的多Agent应急行动方法
本专利技术属于人工智能
，尤其是一种基于JADE和强化学习的多Agent应急行动方法。
技术介绍
随着我国经济社会的迅速发展，各类突发公共事件也是层出不穷。据官方资料显示，2018年仅自然灾害一类就已经造成1.3亿人次受灾，直接经济损失超过2600亿元。有效的应急行动不仅仅可以预防和减少突发公共事件的发生，还能保证在突发公共事件发生时保障人民的人身和财产安全，尽快控制住事态形势并将损失降到最低。因此，如何利用多Agent、强化学习等人工智能技术对整个应急行动过程进行系统有效地监控、管理和辅助决策是应进一步展开的工作，具有重要意义。Agent是一类在特定环境下能感知环境，并能自治地运行以代表其设计者或使用者实现一系列目标计算实体或程序。多Agent系统，即MAS(Multi—AgentSystem)，其本质是“分而治之”的思维。多Agent系统的特点决定了它在很多分布式应用领域的独特优势。电子商务领域、交通运输领域、应急救援领域、辩论系统、电信系统这些都具有分布式交互的特性，采用多Agent系统可以显著改善不同实体的交互方式，优化执行计划，提供更好、更快、更为可靠的服务。另外在某些信息决策支持系统的构建中，多Agent系统也是极为有效的解决方案。JADE作为基于FIPA规范的多Agent系统仿真实现平台，功能完善、体系健全、移植性强，极大地简化了多Agent系统的开发。强化学习作为典型的无监督学习方法，目前已被广泛应用于无人驾驶、智能控制、辅助决策等诸多领域，利用多Agent系统中Agent的自主性...

【技术保护点】
1.一种基于JADE和强化学习的多Agent应急行动决策方法，其特征在于，包括如下步骤：步骤1，启动JADE平台并建立监控Agent，利用监控Agent实时判断是否有突发公共事件发生，若有突发公共事件发生，则直接进入步骤2，若没有突发公共事件发生，则循环本步骤继续判断；步骤2，在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为，并执行各个应急资源仓库Agent的强化学习，从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值；步骤3，从各个强化学习回馈值中选择一个或多个应急资源仓库Agent加入应急资源调配序列中。

【技术特征摘要】
1.一种基于JADE和强化学习的多Agent应急行动决策方法，其特征在于，包括如下步骤：步骤1，启动JADE平台并建立监控Agent，利用监控Agent实时判断是否有突发公共事件发生，若有突发公共事件发生，则直接进入步骤2，若没有突发公共事件发生，则循环本步骤继续判断；步骤2，在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为，并执行各个应急资源仓库Agent的强化学习，从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值；步骤3，从各个强化学习回馈值中选择一个或多个应急资源仓库Agent加入应急资源调配序列中。2.根据权利要求1所述的基于JADE和强化学习的多Agent应急行动决策方法，其特征在于，步骤2中，监控Agent通过JADE的黄页服务实时搜索所有可能的应急资源仓库Agent。3.根据权利要求1所述的基于JADE和强化学习的多Agent应急行动决策方法，其特征在于，步骤2中，应急资源仓库Agent的强化学习的具体步骤为：步骤a，初始化学习率Λt、折扣因子γ以及Q值；步骤b，各个应急资源仓库Agent通过JADE交互协议的发起类与环境的响应类的交互，获得当前状态st，并根据状态转移函数P选择当前状态st下最优动作at，执行动作at转移到新的状态st+1；步骤c，应急资源仓库Agent利用JADE交互协议的发起类从外界环境得到回报值rt+1，并对Q值进行更新；步骤d，在Q值收敛后退出强化学习。4.根据权利要求3所述的基于JADE和强化学习的多Agent应急行动决策方法，其特征在于，步骤b中，利用JADE的内容语言以本体形式存储JADE交互协...

【专利技术属性】
技术研发人员：赵佳宝，潘东旭，潘昱宸，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人