基于多智能体强化学习的煤矿井下人员避灾路线规划方法技术

技术编号:37172199 阅读:17 留言:0更新日期:2023-04-20 22:42
本申请涉及一种多智能体强化学习的煤矿井下人员避灾路线规划方法,包括:获取多名井下人员的位置信息,将多名井下人员的位置信息输入到多智能体强化学习模型中,得到每名井下人员的避灾路线规划方案。本申请基于多智能体强化学习技术完成了煤矿井下人员避灾路线规划,通过考虑煤矿井下人员所处的局部信息和煤矿井下整体的全局信息,能够给出每位井下人员的精确合理避灾路径;与现有技术相比,能够在短时间内为井下人员提供动态精准的避灾指引,能显著提高井下人员避灾成功率。能显著提高井下人员避灾成功率。能显著提高井下人员避灾成功率。

【技术实现步骤摘要】
基于多智能体强化学习的煤矿井下人员避灾路线规划方法


[0001]本申请涉及矿井安全
,具体地,涉及一种基于多智能体强化学习的煤矿井下人员避灾路线规划方法。

技术介绍

[0002][0003]现有的煤矿井下人员避灾路线规划方法大都基于传统的多目标优化算法,该类算法大都属于静态规划即:在事故发生前规定好在那些区域的人员当发生特定类型的事故时应采取特定的路线。这种方法没有考虑事故发生前井下人员位置分布等因素,因此这种避灾路径是对于井下工作人员而言参考价值很低。往往在煤矿井下事故初期波及范围及危害程度都较小,这时是消灭事故,减少损失的有利时机,但井下工作人员通常会因为避灾部分路段坍塌或避灾路径拥堵消耗掉最佳的逃生时机,造成过大量人员伤亡。

技术实现思路

[0004]为了克服现有技术中的至少一个不足,本申请实施例提供一种基于多智能体强化学习的煤矿井下人员避灾路线规划方法。
[0005]第一方面,提供一种多智能体强化学习的煤矿井下人员避灾路线规划方法,包括:
[0006]获取多名井下人员的位置信息;
[0007]将多名井下人员的位置信息输入到多智能体强化学习模型中,得到每名井下人员的避灾路线规划方案;
[0008]多智能体强化学习模型包括多个智能体和环境,每个智能体的输入是一名井下人员的位置信息,智能体的输出是动作,动作为井下人员逃离矿井前每一步采取的动作,每个智能体输出的动作形成联合动作输入到环境中,环境针对每个智能体输出状态和奖励,并反馈给对应的智能体。
[0009]在一个实施例中,多智能体强化学习模型为经过训练得到的模型。
[0010]在一个实施例中,对多智能体强化学习模型进行训练,包括:
[0011]针对每个智能体,采用DQN强化学习模型对全局信息进行学习,并通过仿真训练优化DQN强化学习模型的参数,直到模型收敛,得到训练后的多智能体强化学习模型;
[0012]获取防灾演习过程中井下人员的位置信息,输入到训练后的多智能体强化学习模型中,获取真实的井下人员避灾路线规划方案;
[0013]利用获取的真实的井下人员避灾路线规划方案,对训练后的多智能体强化学习模型进行修正。
[0014]第二方面,提供一种多智能体强化学习的煤矿井下人员避灾路线规划装置,包括:
[0015]人员位置信息获取模块,用于获取多名井下人员的位置信息;
[0016]避灾路线规划方案获取模块,用于将多名井下人员的位置信息输入到多智能体强化学习模型中,得到每名井下人员的避灾路线规划方案;
[0017]多智能体强化学习模型包括多个智能体和环境,每个智能体的输入是一名井下人员的位置信息,智能体的输出是动作,动作为井下人员逃离矿井前每一步采取的动作,每个智能体输出的动作形成联合动作输入到环境中,环境针对每个智能体输出状态和奖励,并反馈给对应的智能体。
[0018]在一个实施例中,多智能体强化学习模型为经过训练得到的模型。
[0019]在一个实施例中,还包括:模型训练模块,用于:
[0020]针对每个智能体,采用DQN强化学习模型对全局信息进行学习,并通过仿真训练优化DQN强化学习模型的参数,直到模型收敛,得到训练后的多智能体强化学习模型;
[0021]获取防灾演习过程中井下人员的位置信息,输入到训练后的多智能体强化学习模型中,获取真实的井下人员避灾路线规划方案;
[0022]利用获取的真实的井下人员避灾路线规划方案,对训练后的多智能体强化学习模型进行修正。
[0023]相对于现有技术而言,本申请具有以下有益效果:本申请基于多智能体强化学习技术完成了煤矿井下人员避灾路线规划,通过考虑煤矿井下人员所处的局部信息和煤矿井下整体的全局信息,能够给出每位井下人员的精确合理避灾路径;与现有技术相比,能够在短时间内为井下人员提供动态精准的避灾指引,能显著提高井下人员避灾成功率。
附图说明
[0024]本申请可以通过参考下文中结合附图所给出的描述而得到更好的理解,附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中:
[0025]图1示出了根据本申请实施例提供的多智能体强化学习的煤矿井下人员避灾路线规划方法的流程框图;
[0026]图2示出了根据本申请实施例的多智能体强化学习模型的示意图;
[0027]图3示出了根据本申请实施例的多智能体强化学习的煤矿井下人员避灾路线规划装置的结构框图。
具体实施方式
[0028]在下文中将结合附图对本申请的示例性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施例的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施例的不同而有所改变。
[0029]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出了与根据本申请的方案密切相关的装置结构,而省略了与本申请关系不大的其他细节。
[0030]应理解的是,本申请并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
[0031]多智能体强化学习是强化学习和多智能体体系结合而成的新领域。多智能体的核心就是把系统分成若干智能体、自治的子系统,他们在物理和地理上可以分散,可以独立执
行任务,同时又可以相互通信、相互协调、进而共同完成任务。基于多智能体强化学习技术能够充分考虑煤矿井下人员所处的局部信息和煤矿井下整体的全局信息,通过给出每位井下人员的最适合避灾路径提升避灾效果。
[0032]本申请实施例提供一种多智能体强化学习的煤矿井下人员避灾路线规划方法,图1示出了根据本申请实施例提供的多智能体强化学习的煤矿井下人员避灾路线规划方法的流程框图,方法包括:
[0033]步骤110,获取多名井下人员的位置信息;
[0034]步骤120,将多名井下人员的位置信息输入到多智能体强化学习模型中,得到每名井下人员的避灾路线规划方案。
[0035]这里,图2示出了根据本申请实施例的多智能体强化学习模型的示意图,多智能体强化学习模型包括多个智能体和环境,可以用数学语言将多智能体强化学习模型描述为:
[0036](N,S,a1,a2,

,a
N
,T,γ,r1,

,r
N
)
[0037]其中,N为智能体个数,S为系统状态,一般指多智能体的联合状态,例如可以是(x1,y1),(x2,y2),

,(x
N
,y
N
),即表示井下人员的位置坐标。a1,a2,

,a
N
为智能体的动作合集。T为状态转移函数,可以根据当前系统状态和联合动作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体强化学习的煤矿井下人员避灾路线规划方法,其特征在于,包括:获取多名井下人员的位置信息;将所述多名井下人员的位置信息输入到多智能体强化学习模型中,得到每名所述井下人员的避灾路线规划方案;所述多智能体强化学习模型包括多个智能体和环境,每个所述智能体的输入是一名井下人员的位置信息,智能体的输出是动作,所述动作为井下人员逃离矿井前每一步采取的动作,每个智能体输出的动作形成联合动作输入到所述环境中,所述环境针对每个所述智能体输出状态和奖励,并反馈给对应的智能体。2.如权利要求1所述的方法,其特征在于,所述多智能体强化学习模型为经过训练得到的模型。3.如权利要求2所述的方法,其特征在于,对多智能体强化学习模型进行训练,包括:针对每个智能体,采用DQN强化学习模型对全局信息进行学习,并通过仿真训练优化DQN强化学习模型的参数,直到模型收敛,得到训练后的多智能体强化学习模型;获取防灾演习过程中井下人员的位置信息,输入到所述训练后的多智能体强化学习模型中,获取真实的井下人员避灾路线规划方案;利用获取的真实的井下人员避灾路线规划方案,对训练后的多智能体强化学习模型进行修正。4.一种多智能体强化学习的煤矿...

【专利技术属性】
技术研发人员:刘再斌范涛马良韩保山李贵红李鹏巨朝晖雷晓荣
申请(专利权)人:中煤科工西安研究院集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1