当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于JADE和强化学习的多Agent应急行动方法技术

技术编号:21455489 阅读:30 留言:0更新日期:2019-06-26 05:16
本发明专利技术提供了一种基于JADE和强化学习的多Agent应急行动决策方法,步骤包括:启动JADE平台并建立监控Agent,利用监控Agent实时判断是否有突发公共事件发生;在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为,并执行各个应急资源仓库Agent的强化学习,从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值;从各个强化学习回馈值中选择一个或多个应急资源仓库Agent加入应急资源调配序列中。该多Agent应急行动决策方法将多Agent技术与强化学习算法相结合,从整个应急行动系统的全局出发来调配应急资源仓库的供应,强化学习算法充分利用了Agent的自主性,来促进多Agent系统的智能化水平和自适应能力。

【技术实现步骤摘要】
一种基于JADE和强化学习的多Agent应急行动方法
本专利技术属于人工智能
,尤其是一种基于JADE和强化学习的多Agent应急行动方法。
技术介绍
随着我国经济社会的迅速发展,各类突发公共事件也是层出不穷。据官方资料显示,2018年仅自然灾害一类就已经造成1.3亿人次受灾,直接经济损失超过2600亿元。有效的应急行动不仅仅可以预防和减少突发公共事件的发生,还能保证在突发公共事件发生时保障人民的人身和财产安全,尽快控制住事态形势并将损失降到最低。因此,如何利用多Agent、强化学习等人工智能技术对整个应急行动过程进行系统有效地监控、管理和辅助决策是应进一步展开的工作,具有重要意义。Agent是一类在特定环境下能感知环境,并能自治地运行以代表其设计者或使用者实现一系列目标计算实体或程序。多Agent系统,即MAS(Multi—AgentSystem),其本质是“分而治之”的思维。多Agent系统的特点决定了它在很多分布式应用领域的独特优势。电子商务领域、交通运输领域、应急救援领域、辩论系统、电信系统这些都具有分布式交互的特性,采用多Agent系统可以显著改善不同实体的交互方式,优化执行计划,提供更好、更快、更为可靠的服务。另外在某些信息决策支持系统的构建中,多Agent系统也是极为有效的解决方案。JADE作为基于FIPA规范的多Agent系统仿真实现平台,功能完善、体系健全、移植性强,极大地简化了多Agent系统的开发。强化学习作为典型的无监督学习方法,目前已被广泛应用于无人驾驶、智能控制、辅助决策等诸多领域,利用多Agent系统中Agent的自主性来实施强化学习算法,有利于提高多Agent系统整体的智能性。
技术实现思路
本专利技术的目的在于:提供一种基于JADE和强化学习的多Agent应急行动决策方法,通过综合考虑运输的成本、距离、时间、有效性等来决定如何利用各个应急资源仓库协同提供应急资源,以较低的经济成本及时有效地提供应急资源保障。为了实现上述专利技术目的,本专利技术提供了一种基于JADE和强化学习的多Agent应急行动决策方法,包括如下步骤:步骤1,启动JADE平台并建立监控Agent,利用监控Agent实时判断是否有突发公共事件发生,若有突发公共事件发生,则直接进入步骤2,若没有突发公共事件发生,则循环本步骤继续判断;步骤2,在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为,并执行各个应急资源仓库Agent的强化学习,从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值;步骤3,从各个强化学习回馈值中选择一个或多个应急资源仓库Agent加入应急资源调配序列中。进一步地,步骤2中,监控Agent通过JADE的黄页服务实时搜索所有可能的应急资源仓库Agent。进一步地,步骤2中,应急资源仓库Agent的强化学习的具体步骤为:步骤a,初始化学习率Λt、折扣因子γ以及Q值;步骤b,各个应急资源仓库Agent通过JADE交互协议的发起类与环境的响应类的交互,获得当前状态st,并根据状态转移函数P选择当前状态st下最优动作at,执行动作at转移到新的状态st+1;步骤c,应急资源仓库Agent利用JADE交互协议的发起类从外界环境得到回报值rt+1,并对Q值进行更新;步骤d,在Q值收敛后退出强化学习。进一步地,步骤b中,利用JADE的内容语言以本体形式存储JADE交互协议的发起类与环境的响应类的交互信息。进一步地,步骤b中,状态转移函数P是基于softmax函数来挑选动作策略,使平均回馈值较大的动作策略被采纳的几率更高。进一步地,步骤b中,状态转移函数P的概率归一化公式为:式中,τ表示退火温度,用于控制搜索率,当τ越小时,平均奖赏的差异越大,选取最优的策略可能越大,表示归一化前相应动作选择造成状态转移的概率,表示归一化前动作集合中全部动作造成状态转移的概率。进一步地,步骤c中,Q值的计算公式为:式中,γ∈[0,1)为折扣因子,Λt为学习率,A为动作集合,S为状态集合,Qt(st,at)表示t时刻由st和at确定的q值,Qt+1(st,at)表示t+1时刻的更新值,maxa∈AQ(s′,a′)表示这些Q值表里面的最大值。进一步地,动作集合A={a1,a2},状态集合S={C1,C2,D,F1,F2},C1表示应急资源仓库Agent能够有效提供的库存容量,C2表示应急资源仓库Agent能够有效提供的应急物资种类,D表示应急资源仓库Agent与突发公共事件发生地的距离,F1表示单位距离应急资源的运输费用,F2表示单位质量应急资源的运输费用,a1表示该应急资源仓库Agent选择加入应急资源调配行列,a2表示该应急资源仓库Agent选择不加入。本专利技术的有益效果在于:(1)将多Agent技术与强化学习算法相结合,从整个应急行动系统的全局出发来调配应急资源仓库的供应,强化学习算法充分利用了Agent的自主性,来促进多Agent系统的智能化水平和自适应能力;(2)具有较强的扩展性和应用性,可以与数字化的应急预案系统相结合,利用已有的监控数据信息和案例库进行计算机辅助决策,更加科学有效地指挥应急行动;(3)利用JADE平台构建Agent、实现多Agent系统开发,基于JADE平台的多Agent系统,利用JADE提供的通信交互协议、黄页服务、本体支持、Agent迁移等可以将应急救援处置过程和行动细节的模拟与实际突发公共事件应急处置的辅助决策应用结合起来,构建一套平时反正演练优化、战时提供辅助决策的系统应用框架体系。附图说明图1为本专利技术的有限状态机模型的应急行动决策总体流程图;图2为本专利技术的JADE平台的强化学习的结构图。具体实施方式如图1所示,本专利技术提供了一种基于JADE和强化学习的多Agent应急行动决策方法,包括如下步骤;步骤1,启动JADE平台并建立监控Agent,利用有限状态机模型(FSM)调度子行为来管理突发公共事件的应急行动,有限状态机由初始状态1开始,执行行为1:利用监控Agent实时判断是否有突发公共事件发生,若有突发公共事件发生,则直接进入步骤2,进入中间状态3,若没有突发公共事件发生,则进入中间状态2(预警行为)再迁移至初始状态1以循环本步骤继续判断;步骤2,执行行为3,在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为,再进入中间状态4,执行行为4:各个应急资源仓库Agent的强化学习,从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值;将强化学习的任务对应一个四元组:E=<S,A,P,R>,其中,S为当前状态,A为动作集合,P为状态转移函数,R为回馈函数,状态转移P基于softmax函数去挑选动作策略,保证平均回馈值比较大的动作策略被采纳的可能性更高,同时还保证了平均回馈值低的动作策略仍有被采纳的机会;应急资源仓库Agent从环境(监控Agent)获得以有效性、经济效益、时间距离等为主的回馈值,根据强化学习的基本原理,如果应急资源仓库Agent的某个行为策略改变环境后获得正的回馈值,那么Agent产生这个行为策略的趋势将会加强;反之将会减弱,多Agent系统中强化学习目标仍然是奖励回馈值最大,以γ折扣累积回馈值本文档来自技高网
...

【技术保护点】
1.一种基于JADE和强化学习的多Agent应急行动决策方法,其特征在于,包括如下步骤:步骤1,启动JADE平台并建立监控Agent,利用监控Agent实时判断是否有突发公共事件发生,若有突发公共事件发生,则直接进入步骤2,若没有突发公共事件发生,则循环本步骤继续判断;步骤2,在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为,并执行各个应急资源仓库Agent的强化学习,从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值;步骤3,从各个强化学习回馈值中选择一个或多个应急资源仓库Agent加入应急资源调配序列中。

【技术特征摘要】
1.一种基于JADE和强化学习的多Agent应急行动决策方法,其特征在于,包括如下步骤:步骤1,启动JADE平台并建立监控Agent,利用监控Agent实时判断是否有突发公共事件发生,若有突发公共事件发生,则直接进入步骤2,若没有突发公共事件发生,则循环本步骤继续判断;步骤2,在监控Agent上注册各个应急资源仓库Agent的应急资源保障服务行为,并执行各个应急资源仓库Agent的强化学习,从监控Agent上获得各个应急资源仓库Agent对应的强化学习回馈值;步骤3,从各个强化学习回馈值中选择一个或多个应急资源仓库Agent加入应急资源调配序列中。2.根据权利要求1所述的基于JADE和强化学习的多Agent应急行动决策方法,其特征在于,步骤2中,监控Agent通过JADE的黄页服务实时搜索所有可能的应急资源仓库Agent。3.根据权利要求1所述的基于JADE和强化学习的多Agent应急行动决策方法,其特征在于,步骤2中,应急资源仓库Agent的强化学习的具体步骤为:步骤a,初始化学习率Λt、折扣因子γ以及Q值;步骤b,各个应急资源仓库Agent通过JADE交互协议的发起类与环境的响应类的交互,获得当前状态st,并根据状态转移函数P选择当前状态st下最优动作at,执行动作at转移到新的状态st+1;步骤c,应急资源仓库Agent利用JADE交互协议的发起类从外界环境得到回报值rt+1,并对Q值进行更新;步骤d,在Q值收敛后退出强化学习。4.根据权利要求3所述的基于JADE和强化学习的多Agent应急行动决策方法,其特征在于,步骤b中,利用JADE的内容语言以本体形式存储JADE交互协...

【专利技术属性】
技术研发人员:赵佳宝潘东旭潘昱宸
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1