基于深度强化学习的人群疏散仿真方法及系统技术方案

技术编号:27060408 阅读:77 留言:0更新日期:2021-01-15 14:40
本公开公开的基于深度强化学习的人群疏散仿真方法及系统,包括:根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置;将人群进行分组,并划分出每个群组的领导者与跟随者;采用分层路径规划方法获得人群的疏散路径,其中,上层群组内领导者通过E‑MADDPG算法进行全局路径规划,获取最优疏散路径,下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。在传统MADDPG算法的基础上引入学习曲线与高优先级经验回放策略,形成了E‑MADDPG算法,提高了算法的学习效率,并在E‑MADDPG算法的基础上提出了一种分层路径规划方法用于规划人群的疏散路径,有效的缩短了路径规划的时间,能够更好地指导人群进行疏散,提高人群疏散的效率。

【技术实现步骤摘要】
基于深度强化学习的人群疏散仿真方法及系统
本公开涉及基于深度强化学习的人群疏散仿真方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。随着公共安全问题日益频繁的发生,大规模人群疏散问题成为应急处理中不容忽视的重要环节。在人群密集的场所中,危险事故一旦发生,人群为了躲避危险会急于逃离现场,从而在人群疏散过程中造成拥挤现象。如果不能及时疏散甚至可能会造成碰撞、踩踏事故,对疏散人群造成二次伤害。同时,大规模人群疏散是一个复杂的过程,并且大规模人群疏散实验受到组织难、成本高、人员安全等问题影响难以开展。因此计算机仿真技术成为分析疏散过程和评价疏散效率的主要手段。如何提高人群疏散的效率,避免二次伤害,一直是研究者们十分关注的问题。强化学习是近年来人工智能领域的研究热点之一。强化学习与路径规划的结合为提高人群疏散效率提供了新的思路。基于多智能体强化学习的路径规划算法,大大提升了路径规划的效率并且因为能够不断学习所以该方法对动态环境也有一定的适应能力,实用性更强。但是由于真实疏散场景大多较为复杂,传统强化学习方法很难处理这一问题,而深度学习能够有效的处理高维输入,可以更好的处理复杂的真实场景。因此,将强化学习与深度学习结合,结合强化学习的学习策略和深度学习解决高维输入问题的能力,能够更好地应用于人群疏散仿真。由Lowe等人提出的多智能体深度确定性策略梯度(Multi-AgentDeepDeterministicPolicyGradient,MADDPG)算法是一种新的多智能体深度强化学习算法,但是该算法也存在状态空间不可变以及经验回放随机等问题,严重影响了算法的学习效率。同时随着引导疏散的智能体数量的增加以及环境的复杂性提高不可避免的带来了庞大的状态空间,这些问题严重影响了该算法在人群疏散领域应用的效果。
技术实现思路
本公开为了解决上述问题,提出了基于深度强化学习的人群疏散仿真方法及系统,在传统MADDPG算法的基础上引入学习曲线与高优先级经验回放策略,形成一种高效的多智能体深度确定性策略梯度(EfficientMulti-AgentDeepDeterministicPolicyGradient,E-MADDPG)算法,提高了算法的学习效率,并在E-MADDPG算法的基础上提出了一种分层路径规划方法用于规划人群的疏散路径,有效的缩短了路径规划的时间,能够更好地指导人群进行疏散,提高人群疏散的效率。为实现上述目的,本公开采用如下技术方案:在一个或多个实施例中,提出了基于深度强化学习的人群疏散仿真方法,包括:根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置;将人群进行分组,并划分出每个群组的领导者与跟随者;采用分层路径规划方法获得人群的疏散路径,其中,上层群组内领导者通过E-MADDPG算法进行全局路径规划,获取最优疏散路径,下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。进一步的,接收商场真实的场景数据库,获取行人运动停驻点,作为E-MADDPG算法的状态空间。进一步的,对MADDPG算法中的经验池容量及采样样本数增添变化参数,形成E-MADDPG算法的经验池曲线和采样样本曲线,通过变化参数调整经验池大小和采样样本数目,使E-MADDPG算法的状态空间动态可变。进一步的,在对E-MADDPG算法的网络训练时,选取价值高的样本进行经验重放。在一个或多个实施例中,提出了基于经验池优化的深度强化学习的人群疏散仿真系统,包括:初始化设置模块,根据场景信息以及人群参数信息,进行疏散场景仿真模型内的参数的初始化设置;组内领导选取模块,实现对人群进行分组;选取组内领导;疏散仿真模块,采用分层路径规划方法获得人群的疏散路径,其中,上层群组内领导者通过E-MADDPG算法进行全局路径规划,获取最优疏散路径,下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。在一个或多个实施例中,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成所述基于深度强化学习的人群疏散仿真方法的步骤。在一个或多个实施例中,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成所述基于深度强化学习的人群疏散仿真方法的步骤。与现有技术相比,本公开的有益效果为:1、本公开将多智能体深度强化学习算法应用于人群疏散的路径规划,提高了人群疏散的效率。2、本公开考虑到多智能体深度强化学习算法存在的缺陷,在MADDPG算法的基础上,提出了E-MADDPG算法,结合学习曲线使得经验池动态可变提高学习效率,然后改进算法随机采样方式提高学习的有效性,并对算法的状态空间加以改进,从行人视频中提取运动停驻点作为状态空间,有效的解决了维度灾难问题。3、本公开采用分层路径规划方法获取人群疏散路径,考虑到人的从众心理将人群划分为领导者与跟随者,将大规模人群疏散仿真问题划分为一组子问题,通过人群分组和领导者引导疏散,可以有效提高公共场所疏散的效率保证人员在突发事件中的安全附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本公开实施例1的流程图;图2为本公开实施例1采用YOLOV3方法提取的行人运动轨迹;图3为本公开实施例1构建的疏散场景图;图4为本公开实施例1人群分组示意图;图5为本公开实施例1人群疏散示意图;图6为本公开实施例1人群疏散结束时刻示意图。具体实施方式:下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。实施例1...

【技术保护点】
1.基于深度强化学习的人群疏散仿真方法,其特征在于,包括:/n根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置;/n将人群进行分组,并划分出每个群组的领导者与跟随者;/n采用分层路径规划方法获得人群的疏散路径,其中,上层群组内领导者通过E-MADDPG算法进行全局路径规划,获取最优疏散路径,下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。/n

【技术特征摘要】
1.基于深度强化学习的人群疏散仿真方法,其特征在于,包括:
根据场景信息和人群参数信息对构建的疏散场景仿真模型初始化设置;
将人群进行分组,并划分出每个群组的领导者与跟随者;
采用分层路径规划方法获得人群的疏散路径,其中,上层群组内领导者通过E-MADDPG算法进行全局路径规划,获取最优疏散路径,下层群组内跟随者避障跟随领导者沿最优疏散路径进行疏散。


2.如权利要求1所述的基于深度强化学习的人群疏散仿真方法,其特征在于,接收商场真实的场景数据库,采用YOLOV3方法从行人视频中获取行人运动停驻点,作为E-MADDPG算法的状态空间。


3.如权利要求1所述的基于深度强化学习的人群疏散仿真方法,其特征在于,对MADDPG算法中的经验池容量及采样样本数增添变化参数,形成E-MADDPG算法的经验池曲线和采样样本曲线,通过变化参数调整经验池大小和采样样本数目,使E-MADDPG算法的状态空间动态可变。


4.如权利要求1所述的基于深度强化学习的人群疏散仿真方法,其特征在于,在对E-MADDPG算法的网络训练时,选取价值高的样本进行经验重放。


5.如权利要求1所述的基于深度强化学习的人群疏散仿真方法,其特征在于,组内领导者通过E-MADDPG算法进行全局路径规划,获取最优疏散路径,具体为:
根据出口位置和领导者的初始位置,获取领导者的所有疏散路径;
计算每个疏散路径的奖励值;
选取奖励值最大的疏散路径为最优疏散路径...

【专利技术属性】
技术研发人员:刘弘李信金孟祥栋赵缘
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1